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由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法 • 定量研究系列”丛书，精选了世界著名的 SAGE 岀版社 
定量社会科学研究丛书中的35种，翻译成中文，集结成八 
册，于2011年出版。这八册书分 别是： 《线性回归分析基 
础》、《高级回归分析》、《广义线性模型》、《纵贯数据分析》、 
《因果关系模型》、《社会科学中的数理基础及应用》、《数据分 
析方法五种》和《列表数据分析》。这套丛书自岀版以来，受 
到广大读者特别是年轻一代社会科学工作者的欢迎，他们针 
对丛书的内容和翻译都提出了很多中肯的建议。我们对此 
表示衷心的感谢。 

基于读者的热烈反馈，同时也为了向广大读者提供更多 
的方便和选择，我们将该丛书以单行本的形式再次出版发行。 
在此过程中，主编和译者对已出版的书做了必要的修订和校 
正，还新增加了两个品种。此外，曾东林、许多多、范新光、李 
忠路协助主编参加了校订。今后我们将继续与 SAGE 出版社 
合作，陆续推出新的品种。我们希望本丛书单行本的出版能 
为推动国内社会科学定量研究的教学和研究作出一点贡献。 



总序 


往事如烟，光阴如梭。转眼间，出国已然十年有余。 
1996年赴美留学，最初选择的主攻方向是比较历史社会学， 
研究的兴趣是中国的制度变迁问题。以我以前在国内所受 
的学术训练，基本是看不上定量研究的。一方面，我们倾向 
于研究大问题，不喜欢纠缠于细枝末节。国内一位老师的 
话给我的印象很深，大致是说 ：如果 你看到一堵墙就要倒 
了，还用得着纠缠于那堵墙的倾斜角度究竟是几度吗？所 
以，很多研究都是大而化之，只要说得通即可。另一方面， 
国内（十年前）的统计教学，总的来说与社会研究中的实际 
问题是相脱节的。结果是，很多原先对定量研究感兴趣的 
学生在学完统计之后，依旧无从下手，逐渐失去了对定量研 
究的兴趣。 

我所就读的美国加州大学洛杉矶分校社会学系，在定量 
研究方面有着系统的博士训练课程。不论研究兴趣是定量 
还是定性的，所有的研究生第一年的头两个学期必须修两门 
中级统计课，最后一个学期的系列课程则是简单介绍线性回 
归以外的其他统计方法，是选修课。希望进一步学习定量研 
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究方法的可以在第二年修读另外一个三学期的系列课程，其 
中头两门课叫“调查数据分析”，第三门叫“研究设计”。除此 
以外，还有如“定类数据分析”、“人口学方法与技术”、“事件 
史分析”、“多层线性模型”等专门课程供学生选修。该学校 
的统计系、心理系、教育系、经济系也有一批蜚声国际的学 
者，提供不同的、更加专业化的课程供学生选修。2001年完 
成博士学业之后，我又受安德鲁 • 梅隆基金会资助，在世界 
定量社会科学研究的重镇密歇根大学从事两年的博士后研 
究，其间旁听谢宇教授为博士生讲授的统计课程，并参与该 
校社会研究院 (Institute for Social Research) 定量社会研究方 

法项目的一些讨论会，受益良多。 

2003年，我赴港工作，在香港科技大学社会科学部，教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 
部自创建以来，非常重视社会科学研究方法论的训练。我开 
设的第一门课“社会科学里的统计学” （Statistics for Social 
Science) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课（事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课）。我 
在讲授这两门课的时候，根据社会科学研究生的数理基础比 
较薄弱的特点，尽量避免复杂的数学公式推导，而用具体的 
例子，结合语言和图形，帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上，即社会研究者主要为定量统计方法的“消费者”而非 
“生产者”。作为“消费者”，学完这些课程后，我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的 文章; 另一方面，也能在自己的研究中运用这些成熟的 



方法论技术。 

上述两门课的内容，尽管在线性回归模型的内容上有 
少量重复，但各有侧重。“社会科学里的统计学 ” （Statistics 
for Social Science ) 从介绍最基本的社会研究方法论和统计 
学原理开始，到多元线性回归模型结束，内容涵盖了描述性 
统计的基本方法、统计推论的原理、假设检验、列联表分析、 
方差和协方差分析、简单线性回归模型、多元线性回归模 
型，以及线性回归模型的假设和模型诊断。“社会科学中 
的定量分析”则介绍在经典线性回归模型的假设不成立的 
情况下的一些模型和方法，将重点放在因变量为定类数据 
的分析模型上，包括两分类的 logistic 回归模型、多分类 lo ¬ 
gistic 回归模型、定序 logistic 回归模型、条件 logistic 回归模 
型、多维列联表的对数线性和对数乘积模型、有关删节数据 
的模型、纵贯数据的分析模型，包括追踪研究和事件史的分 
析方法。这些模型在社会科学研究中有着更加广泛的 
应用。 

修读过这些课程的香港科技大学的研究生，一直鼓励 
和支持我将两门课的讲稿结集出版，并帮助我将原来的英 
文课程讲稿译成了中文。但是，由于种种原因，这两本书拖 
了四年多还没有完成。世界著名的出版社 SAGE 的“定量 
社会科学研究”丛书闻名遐迩，每本书都写得通俗易懂。中 
山大学马骏教授向格致出版社何元龙社长推荐了这套书， 
当格致出版社向我提出从这套丛书中精选一批翻译，以獪 
中文读者时，我非常支持这个想法，因为这从某种程度上弥 
补了我的教科书未能出版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种 
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语言的精准把握能力，还要有对实质内容有较深的理解能 
力，而这套丛书涵盖的又恰恰是社会科学中技术性非常强 
的内容，只有语言能力是远远不能胜任的。在短短的一年 
时间里，我们组织了来自中国内地及港台地区的二十几位 
研究生参与了这项工程，他们目前大部分是香港科技大学 
的硕士和博士研究生，受过严格的社会科学统计方法的训 
练，也有来自美国等地对定量研究感兴趣的博士研究生。 
他 们是： 

香港科技大学社会科学部博士研究生蒋勤、李骏、盛智 
明、叶华、张卓妮、郑冰岛，硕士研究生贺光烨、李兰、林毓玲、 
肖东亮、辛济云、於嘉、余珊珊，应用社会经济研究中心研究 
员李俊秀;香港大学教育学院博士研究生洪岩璧;北京大学 
社会学系博士研究生李丁、赵 亮员； 中国人民大学人口学系 
讲师巫 锡炜； 中国台湾“中央”研究院社会学所助理研究员林 
宗弘; 南京师范大学心理学系副教授 陈陈; 美国北卡罗来纳 
大学教堂山分校社会学系博士候选人姜 念涛; 美国加州大学 
洛杉矶分校社会学系博士研究生宋曦。 

关于每一位译者的学术背景，书中相关部分都有简单 
的介绍。尽管每本书因本身内容和译者的行文风格有所差 
异，校对也未免挂一漏万，术语的标准译法方面还有很大的 
改进空间，但所有的参与者都做了最大的努力，在繁忙的学 
习和研究之余，在不到一年的时间内，完成了三十五本书、 
超过百万字的翻译任务。李骏、叶华、张卓妮、贺光烨、宋 
曦、於嘉、郑冰岛和林宗弘除了承担自己的翻译任务之外， 
还在初稿校对方面付岀了大量的劳动。香港科技大学霍英 
东南沙研究院的工作人员曾东林，协助我通读了全稿，在此 



我也致以诚挚的谢意。有些作者，如香港科技大学黄善国 
教授、美国约翰 • 霍普金斯大学郝令昕教授，也参与了审校 
工作。 

我们希望本丛书的出版.能为建设国内社会科学定量研 
究的扎实学风作岀一点贡献。 


吴晓刚 

于香港九龙清水湾 





在最近一次会议上，我听了某研究者分析国家一年度 
( cmmtry - year ) 数据的报告，理应使用固定效应模型的，他用 
的却是随机效应模型。而那篇文章却受到了来自不同社会 
科学背景的学者的热烈欢迎。显然，在诸多社会科学专业 
里，就如何选用固定效应模型和随机效应模型还存在很多疑 
惑，很多人甚至还不清楚这些模型有何用处。无疑，埃里森 
讨论的是这两种模型更重要和一般的方面。本书将很好地 
满足“社会科学定量研究方法丛书”在这一主题上的需要，尤 
其是考虑到现在获得跟踪调查数据 （panel data ) 越来越容易 
的现实 


① Panel Data 在经济学文献中通常被翻译为面板数据（如《面板数据计量经济 
学 》 [Parted Dam £ conwne ? nV 5] ，曼纽尔 • 阿雷拉诺著，朱平芳、徐伟民译，上海財经大学 
出版社,2008年10月）或综列数据（如《计量经 济学： 现代观点》，[美]】.\1伍德里奇 
著，费剑平译，中国人民大学出版社，2003年3月），面板数据分析 （Panel Data Analy - 
sis ) 与时间序列分析 (Time Series Analysis ) 及横截面数据回归分析 (Regression Analy ¬ 
sis with Cross-Sectional Data ) 构成计量经济学的三大内容。其中，横截面数据是一个 
时点上收集的不同观察对象的数据，比方说，就一次人口普査来说就是一个截面 研究; 
时间序列数据通常是一个观察单位在不同时点的观察结果构成的数据，如我国1978 
年以来，每一年的 GDP 的增长速度数据就构成一个时间序列数据.而 Panel Data 将这 
两种数据的特性综合在一起，首先在同一时点上对不同的案例(通常为总体中的(转下页) 
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上述国家一年度数据代表着这样一种数据类型，在这种 
数据中，个体案例得到了历时的（多次）观察。跟踪调查 
(panel survey) 之所以近年来非常流行，一个重要的原因是跟 
踪数据允许研究者把握社会的发展变化，而把握这种变化是 
真正理解社会机制的必要条件。尽管有些跟踪调查每年都 
会观测一次，例如英国家户跟踪调查 (British Household Panel 
Study Survey, BHPS) 开始于 1991 年，目前仍在持续 进行; 其 

他一些则只有少数几轮调查，例如全美青少年健康跟踪调查 
(National Longitudinal Study of Adolescent Health in the United 
States) 只在 1994 年到 2002 年间进行了三轮。 

回归模型中，不管分析单位是个人、单位还是国家，每个 
案例在不同时点上的残差都将存在一定的相关或互相依赖， 
这通常是因为不同案例在某些未被观察到的特征上存在差 
异造成的。此时，回归模型有关误差项相互独立的假定被违 
背(尽管这个一般规律同样适应于限值因变量回归，但这里 
我们将讨论限定在线性模型上）。 

固定效应模型和随机效应模型都能解决残差相关问齒。 
但固定效应模型做得彻底得多。用埃里森的话说，这些模型 
“将每个个体作为其自身的控制”。经此处理，它们实际上就 
控制了所有稳定的、未被观测到的变量，就像这些变量实际 
得到了观测并被纳人模型一样。就此而言，这些模型所起的 


(接上页）一个规模相对较小的子样本)的多个特征迸行了观测；其次，对每一个案例在 
不同时点进行了多次观测；由此所得到的数据就是 Panel Data 。 面板数据这一翻译尽 
管因计量经济学而流传甚广，但“面板”的中文字义与英文 panel 含义相差甚远 。 Panel 
Survey 翻译成为面板调査显得笨拙，可翻译为小样本重复调査、固定样本长期追踪调 
査、追踪调査、纵贯调査或者历时调査等等。其中追踪调査或跟踪调査即带有在一段 
时间内对固定样本进行多次调査的含义。此外，根据艾尔 • 巴比的观点 ， Longitudinal 
Data 为历时研究，它包括趋势研究、队列研究和追踪研究三类。——译者注 



作用和实验设计中的随机分配如出一辙。 

本书作者在过去30年间为社会科学研究方法作出了持 
续的贡献，涉及诸多重要的主题。他撰写的《事件史分析》 
(Event History Analysis , 1984) ，至今仍是社会科学领域介 

绍事件史数据分析著作的榜样和标准。确切地说，在本书 
中，埃里森介绍了多种形式的固定效应模型^—可以用于连 
续因变量的、分类因变量的、计数因变量的甚至结构方程情 
境等——并且讨论了如何在固定效应模型及随机效应模型 
之间作出选择，这一讨论对于本序言开始时提及的那位报告 
人将大有裨益。 


賡福挺 
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多年以来，统计学领域最具挑战性的议题，一直是如何 
创造一些方法以从非实验数据中进行有效的因果推论。而 
该议题内最难的问题，是如何从统计上控制无法观测的变 
量。对于实验主义者而言，问题的解决方案非常简单 ：随机 
分配 (random assignment )。 通过将研究对象随机分配到各 
个实验组 (treatment group ) ，可使这些小组在全部属性上几 
乎相同，不管这些属性是可观测的还是不可观测的。但是在 
非实验研究中，控制这些潜在干扰变量的传统办法就是测量 
它们，并把它们放到回归模型里。没有测量就没有控制。 

在本书中，我描述了一些被称为固定效应模型的回归模 
型，这些模型使得我们有可能对那些没有或无法被测量的变 
量进行控制。基本的思想其实非常简单:用每个个体作为其 
自身的控制（因素）。例如，如果你想弄清婚姻是否能减少惯 
犯们 （chronic offenders ) 的再犯行为 （ recidivism ) ，可以通过对 

个体结婚前后遭拘捕的比率进行比较。假定其他情况都不 
变(这是一个很大的假定），前后两个时期拘捕率的差异可以 
作为婚姻对该个体产生的效果的估计。如果我们将人群中 
不同个体的这一差异进行平均，就能得到“平均处置效应” 
(average treatment effects ) 的估计值。这一估计控制了惯犯 
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们所有的稳定属性。它同时控制了容易被测量的变量，诸 
如性别、民族、种族、出生地，以及更难被控制的变量，如智 
商、儿童期父母的照料情况、遗传结构等。虽然它不控制诸 
如就业状况、收人之类的时变变量，但这些变量通过常规的 
办法^^对其进行测量并放人回归模型——就可以得到 
控制。 

再举一个例子，假如你想研究打电脑游戏的时间是否会 
影响小孩的学习成绩。你在几个时点上对样本里的小孩都 
测量了这两个变量。针对每个小孩，都用打电脑游戏的时间 
对其学习成绩估计一个回归，然后将得到的回归参数进行平 
均，就可以完成一个基础的固定效应模型。因为只有小孩自 
身 ( within - child ) 的变化被用来估计回归参数，小孩的所有固 
定属性都得到了控制。 

使用固定效应模型有两个基本的数据要求:第一，对于 
每一个个体，因变量至少要被测量两次。这些测量结果应该 
具有直接的可比性，也就是说，它们具有同样的意义和度量 
单位。第二，样本中应该有相当比例的案例的关键自变量在 
不同时点上的取值有所变化。固定效应模型在估计诸如性 
别、民族之类的非时变变量的作用效果上几乎毫无用处。当 
然，有些统计学家认为谈论这些变量的因果效应根本就毫无 
意义 （ Sobel ， 1995)。 

为什么非得用一本书来介绍固定效应模型呢？第一，不 
同类型的因变量需要使用不同的方法，不管是定距的、定性 
的、计数的因变量，还是事件时间。第二，对于特定类型的因 
变量，通常有两种及以上的方法来使用固定效应模型，我们 
需要理解它们的异同。第三，也是最具挑战性的，若被测量 
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的自变量并非“严格的外生 ( exogenous ) 变量”一~ ^如 ，因变 
量在某个时点的取值会影响此后时点上自变量的取值—— 
还需要求助于一些特殊办法(而且并非总能找到此类办法）。 

“固定效应模型”这一概念经常与“随机效应模型”形成 
对照。很可惜，这一术语是众多误解和疑惑的起源。以传统 
的观点来看，固定效应模型将个体间未被观察的差异作为一 
套固定的参数，它们要么可以被直接估计出来，要么可以在 
估计方程中被抵消掉。而在随机效应模型中，未被观察的差 
异被处理成为具有特定概率分布的随机变量。 

如果求助于有关实验设计的文献以解释这一差异，你会 
找到如下 论述： 


如果实验所用的处置水平恰好是推论所试图…… 
的某几个水平时，通常把处置效应看做是固定的。如果 
试图推论的处置效应的范围比实验中所用的要大，或者 
处置水平并未经过有目的的选择……通常的做法是把 
处置水平看做是随机的 （ LaMotte ， 1983:138—139)。 


然而，这种描述在非实验情境下是无益的，因为根据他 
们的建议，几乎在任何情境下随机效应模型都更为可取。没 
有什么比这更荒谬的了。 

在更新近的框架下 ( Wooldrige ， 2002)，未被观测的差异 
通常被当做随机变量。这时，将这两种模型区别幵来的是已 
观测的变量与未被观测的变量之间的相关结构。在随机效 
应模型中，未被观测的变量被假定与所有观测变量之间不相 
关(或者，更严格地说，在统计上互相独立）。而在固定效应 
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模型中，允许未被观测的变量与任何已观测的变量之间存在 
相关(这实际上相当于将未被观测的变量当做固定的参数）。 
除非你允许这样的相关，否则就不能真正控制这些未被观测 
变量的作用。正因如此，固定效应模型才有吸引力。 

当然，固定效应模型也有一些潜在的严重不足。前面已 
经提到，传统的固定效应模型不能对恒定不变的变量产生任 
何估计。在本书中，我们将看到一些用来估计此类变量（如 
性别和民族)的效果的办法，但是这些估计结果实际上并没 
有真正控制不可观测的变量。 

第二，在很多情况下，固定效应估计产生的标准误要比 
随机效应估计的大得多，从而导致更大的 P 值和更宽的置信 
区间。原因很简单，随机效应模型既使用了个体内信息，又 
使用了个体间信息，而固定效应估计只使用了个体内信息， 
在根本上忽略了个体间差异的信息。如果自变量取值在个 
体间存在很大差异，而在同一个体不同时点上的变化不大， 
那么固定效应估计将很不精确。 

例如，用固定效应模型估计教育(受教育年数)对工资收 
入的影响就很困难。尽管受教育年限会有一定的变化，但绝 
大多数人是在完成了学业后才开始有工资的。一部分人进 
人劳动力市场后会争取继续教育，但相对于个体间的差异， 
同一个体不同时点的教育差异要小得多。另外，那些成年后 
教育水平仍然有所变化的人可能根本就不同于那些教育水 
平保持不变的人。 

那我们为什么要拋弃个体间的变异呢？这是因为这些 
变异很可能与个体未被观测的属性混在一块。固定效应模 
型的思路是避免使用这些“被污染”的变异，而只使用那些能 
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够对我们感兴趣的参数产生近似无偏估计的变异。用统计 
学的话说，我们牺牲了效率以减小偏差。在非实验研究中， 
我想这通常是一个值得的交换。不过，必须记住的是，固定 
效应模型无法控制随着时间而发生变化的未被观测的变量。 
例如，在探索婚姻对累犯的影响的研究中，结婚很有可能与 
收入的增加联系在一起。因此，除非收入变量被明确地纳人 
回归模型，否则，估计得到的婚姻的影响实际上将代表收人 
的影响。 

有意思的是，固定效应方法经常被用在随机化的实验 
中，以提高效率（例如，减小抽样变异程度）而非减小偏误。 
在交叉设计中 （ Semi ， 1993)，每个研究对象会在不同的时点 
接受两次及以上的不同的实验处理，这些不同处理岀现的先 
后顺序是随机选定的。因此，这些实验处理应该与实验对象 
之间未被观测到的差异不存在实质关联。此外，根据设计， 
自变量(实验处理)的所有变化都是个体内的，而不是个体间 
的，因此，忽略研究对象之间的差异并不会损失任何信息。 
实际上，因为没有将个体间的变异作为误差项的一部分，固 
定效应分析很可能产生理想的低标准误。 

固定效应方法的另一个诱人之处在于，实现这些方法的 
软件已经随处可得。例如，对于第2章的基本线性模型 ，一 
般最小二乘法回归软件就够用了。而第6章的高级线性模 
型可以通过很多用来做结构方程模型的程序进行估计。第3 
章的 logstic 回归模型，如果是两期数据，常规的 logistic 程序 
就够用了。如果是多期数据，则可以用条件 logit 程序解决, 
这种程序在绝大多数综合性的统计软件包中都有。用于计 
数数据的固定效应模型（第4章）可以用常规的泊松或负二 
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项回归软件进行估计。最后，第5章的事件史模型可以用 
Cox 回归标准程序或常规 logit 程序(在事件不重复发生的情 
况下)进行估计。 

要想从本书得到最大的收获，你应该已经对基本的统计 
推论原则有所了解，包括标准误、置信区间、假设检验4值、偏 
差、有效性，等等 ( Lewis - Beck ， 1995)。对于具体的章节，你应 
该对作为固定效应方法基础的那些特定回归方法有所了解。 
这些方法包括第2章的一般线性回归 （ Allison , 1999 b )、 第3 
章的 logistic 回归 ( Allison ，1999 a ； Pampel , 2000)、第4章的泊 
松及负二项回归 (Dunteman & Ho , 2005)、第5章的 Cox 回归 
( Allison , 1984) 以及第6章的线性结构方程模型 （ Long ， 
1983) 0 

第2章到第5章例题的运算我用的是 Stata 软件 ( www . 
stata . com ) ，它有大量用于固定效应回归的命令。这些章节 
所有例题的 Stata 命令在附录1中都可以找到。第6章使用 
的是 Mplus 软件 ( www . statmodel . com ) ，这一章的命令见附 
录2。本书的部分内容来自于笔者此前在 SAS ® 出版社出 
版的《用 SAS 对纵贯数据进行固定效应回归分析》一书 
{Fixed Effects Regression Methods for Longitudinal Data 
using SAS ⑧，2005 ， SAS Institue Inc .) 。希望了解如何用 
SAS 进行固定效应分析的读者可以参看该书。 
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在这一章，我们讨论的固定效应模型，要求数据中的因 
变量为定距测量变量，并且因变量与自变量之间是线性决 
定关系。在数据中，我们有一组个体 G = 1，…，； 2) ，并且 
每一个体都至少在两个时点1，…， T) 上得到测量。 
在这里，每一时点常被称为一个“时期”。 

下面是模型的表示 方法: 我们令九表示因变量，用向量 
心表示一套在不同时点有所变化的自变量，另外还有一套不 
随时间变化的自变量〜（如果你觉得使用向量不舒服，可以 
把它们当成单变量来解释）。我们为^建立的基本模型 
如下： 


yu — fj-t +/?x l7 + yzi +e“ [2. 1] 

其中， ^ 是截距，每一个时期都可以不同 # 和 y 是系数向量。 
尽管方程 2. 1看起来像是严格的截面数据模型 （strictly 
cross - sectional ) ，但 向量要纳人时滞 x 变量 （lagged ver¬ 
sions of x)， 一点障碍也没有，只不过要求研究者必须至少有 
三期数据，才能估计一个一期时滞模型 (a model with a lag of 
one period) 0 

在方程 2. 1 中，两个“误差”项&和^的特性表现有些不 
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同。每一个体在每个不同时点都有一个不同的只在 
不同个体之间有所不同，不随时间变化而变化。这样，我们 
可以 认为& 代表着所有未被观测的非时变变量对于 J 的综 
合影响。相反， e , •，代表每一时点上的纯粹随机变动。 

现在，我要对^做一个很强的假定，即每个 e , 的均值为 
0,方差不变(对所有的 z 和0,并且在统计上独立于所有其他 
因 素 ㈠ 除 外）。这些假定中，0均值假定并不关键，只有在对 
截距进行估计时才有影响。方差不变的假定有时可以放松， 
以允许不同时点 < 上的方差有所差异。值得提醒的是，任意 
时点的 L 都与任何其他时点的独立，这意味着&是严格的 
外生变量。这一假定在某些情况下可以有所松动，但因此涉 
及的问题绝非无足轻重，也不单纯是技术性问题。在第6章 
我将讨论其中的一些问题。 

至于％ ，在传统的固定效应分析中，它被假定代表 n 个 
固定参数，它们要么可以被直接估计出来，要么可以通过某 
种方式从估计方程中消除掉。如第1章已经提到的，在这一 
章，我们将采用一种新的策略来理解 a , ，假定它代表的是一 
套随机变量。尽管我们会假定 a 和 e , 在统计上相互独立，但 
我们允许《,与时变解释向量^之间的任意相关。另外，如果 
我们并不关心7,也可以允 许&与 A 之间任意相关。此种相 
关的纳入把固定效应方法与随机效应方法区别开来，同时也 
才让我们敢说固定效应方法“控制”了不随时间变化而变化 
的不可观测变量。此刻，我们还不需要对％的均值和方差做 
任何假定。 
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第1节 I 两期数据（固定效应分析） 


当变量只被观察两次（了 = 2) 时，方程 2. 1的估计非常 
简单。对应的两个方程分 别为： 

乂 1 — ii\ +^x n +7Z, +a, +e,i 

yn — ^ 2 十卢工;2 + 7之，+ a , +£ l2 [2. 2] 

从第二个方程中减去第一个方程，我们就得到了“一阶 
差分 ” （first difference ) 方程： 

y t 2 ~ y,\ — (和 —"1) +^(x t2 — ) + (e l2 — £：i) 

[2. 3] 

这一方程可以被改 写成： 

A^ ( = ZV + 卢 + Ae, [2. 4] 

其中，△表示差分值 （difference score )。 注意， a 和 y a 被从 
方程中“差分掉”了。这样，我们就不用再担心《,及其与 Al 
之间的可能相关了。当然，从另一方面来讲，我们也就失去 
了估计7的机会。由于 x tl 和4分别都与 e n 和 e , 2 无关，可推 
出 Ax , 与 Ae , 也相互独立。这意味着通过对差分进行一般最 
小二乘 ( OLS) 回归就能得到/?的无偏估计。 

现在让我们将这一方法用于实际数据。我们的样本来 
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自全美青少年跟踪调查（ National Longitudinal Survey of 
Youth, NLSY ； Center for Human Resource Research, 
2002) 从原本要大得多的数据集中，我抽取了一个只包含 
581 个小孩的子样本，他们在 1990 年、 1992 年及 1994 年都接 
受过调查。第一步，我们只考虑三个在三次调查中都得到测 
量的 变量： 

ANTI 反社会行为（取值范围 0 到 6) 

SELF 自信水平（取值范围 6 到 24) 

POV 如果家庭贫困则编码为 1 ，否则为 0 

在此，我们先忽略中间一年 （1992 年）的观察记录，只使 
用 1990 年和 1994 年的 数据。 分析的目标是对以 ANTI 为因 
变量 W ，SELF 和 POV 为自变量的线性方程进行 估计： 

ANTI , = ", +择 SELF , + 焊 POV , +« + 匕，1，2 

[2.5] 


通过如此表达这一模型，我们假定了某种特定方向的因 
果关系，具体而言，是 SELF 和 POV 影响 ANTI ， 而不是反过 
来。我们还假定了因果效应是同期发生的 （ SELF 和 P 0 V 不 
存在时滞效应）。这两个假定在第6章中将会被放宽。最 
后，我们假定 A 和择在两个时期是一样的，不过这一假定很 
快就会被放宽。相反，我们让截距^在各个时期有所不同， 
允许非 SELF 或 POV 变化结果的反社会行为的平均水平在 
不同时期有所变化。 

作为开始，我们先用一般最小二乘回归分别对两个时期 
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估计方程 2. 5。结果呈现在表 2.1 的头两列。意料之中的 
是，在两个年份的数据中，贫穷都与较高水平的反社会行为 
有关，而自信与较低的反社会行为水平相关。两个年份的回 
归系数都非常相似。 

这两个回归都没有对非时变变量（如性別、民族等)进行 
任何控制。但是，通过对差分进行回归，而不是将这类变量 
纳入方程，我们就能控制所有非时变自变量。对于每个小孩 
及每个变量，我们都用1994年的取值减去1990年的取值，然 
后用 ANTI 差分对 SELF 差分和 POV 差分做回归。 POV 是 
虚拟变量，似乎不宜用一个值减去另一个值。但事实上，在 
这方面，虚拟变量可像任何其他变量一样处理。 

差分回归的结果在表 2. 1的最后一列。尽管方程是以 
差分的形式估计的，但回归系数的解释和直接估计方程 2. 5 
时一样。它们表示某一年的每个变量对当年因变量取值的 
影响。对自信水平这一变量来说，差分方程估计得到的系数 
处于两个年份分开估计得到的系数之间，并且仍然高度显 
著。而贫困状况的回归系数则要小很多，并且在统计上不再 
显著。 


表 2.1 反社会行为对自信水平及贫困状况的 OLS 回归 



1990 

1994 

差分值 

系数 

标准误 

系数 

标准误 

系数 

标准误 

截距 

2. 357” 

0. 384 

2. 888** 

0. 447 

0. 209“ 

0. 063 

SELF 

一 0. 050** 

0. 019 

-0. 064 ” 

0. 021 

— 0. 056“ 

0. 015 

POV 

0. 595 ^ 

0. 126 

0. 547 

0. 148 

— 0. 036 

0. 128 

R 2 

0. 05 


0. 04 


0. 02 



注： " />< 1。 






第 2 章线性固定效应模 型:基 本原理 


固定效应估计结果与用其他方法估计得到的结果差异 
巨大的情况十分常见。在这个例子里，可能的解释之一是， 
两个年份分开回归得到的贫困效应估计是虚假的，反映的是 
贫困与某些影响反社会行为的非时变变量之间的相关。 

当然，结论不能下得太过草率。只要常规回归产生的系 
数显著，而固定效应回归产生的系数不显著，就存在两种可 
能的解释：（1)固定效应系数从大小上看要小 得多； （2) 固定 
效应标准误大得多。正如前文已经提过的，固定效应回归系 
数的标准误通常比其他模型的标准误大，尤其是在自变量的 
历时变化很小时。事实上，贫困状况的变异主要存在于女孩 
之间，仅有24%的女孩在1990年到1994年期间脱离或陷人 
贫困境地（即发生过个体内的变化）。 

不过,差分方程中贫困状况回归系数的标准误差不多与 
1990年的一样，比1994年的甚至还小。因此，变异不足在这 
里并不成为问题。看来，在控制了非时变变量之后，贫困状 
况的影响确实有较大的衰退。总的经验是，一旦固定效应方 
法得到的 P 值与其他方法显著不同时，一定要同时检查系数 
及其标准误。 

最后，可以看到截距 0.209 高度显著。这一系数 表示: 
在自信水平及贫困状况未发生变化的情况下，一个人的反社 
会行为从时间1到时间2的变化量估计值。 
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第2节 I 两期数据差分法的扩展 


方程 2. 1对应的基本固定效应模型可以被扩展，以允 
许: T 和 Z 的影响在时间上存在差异。在两期数据情况下， 
我们可以将上述方程改写成每个时期的系数完全不同的 
方程： 


y l \ = //I +^ix n + YiZi +a, +£n 

yn = fxz YzZi 十 a; + e,.2 [2.6] 

取一阶差分，合并同类项，得 到： 

yn — *y;i = ("2 — "1) + 保（工 i2 — x i \) H - (/% — 择 ） x !] 

H - (/2 — 7i) z i ~t~ (。2 _ £n) [2. 7] 

这一方程可以被改 写成： 

△乂 = A/i + ^2 Ar, + /\3xi + Ayz t + Ae, 

关于这一方程，有三点值得注意。第一，和以往一样， a, 
被差分掉了，因此我们无需担心它的潜在干扰。 第二， z 没有 
被消除，并且其系数向量等于两个时点对应系数向量之差。 
由此我们知道，回归系数在不同时期发生改变的非时变变量 
必须被明确地纳人方程。固定效应只能对作用不随时间变 
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化而变化的非时变变量进行控制。第三，现在，方程含有自 
变量 A ，并且其回归系数等于两时期对应系数之差。因此， 
对于 Z 和：^来说，检验它们的系数等于0与检验择= A 或 
7 i ^ 72等价。 

下面我们尝试将这一模型用于 NLSY 数据。该数据集 
还包括如下非时变变量，我们将把它们作为可能的解释 
变量： 


BLACK 如果小孩是黑人则等于 1 ，否则为 0 

HISPANIC 如果小孩是西班牙裔则等于 1 ，否则 

为 0 

CHILDAGE 小孩在 1990 年的年龄 
MARRIED 如果其母亲在 1990 年处于在婚状态 

则等于 1 ，否则为 0 

GENDER 女孩等于 1 ，男孩等于 0 

MOM AGE 小孩出生时母亲的年龄 
MOMWORK 如果母亲 1990 年处于在业状态则为 

1 ，否则为 0 

前两个变量 BLACK 和 HISPANIC 分别代表一个三分 
类变量的两个类别，参照组为非西班牙裔白人。这7个变量 
将和自信水平及贫困状况的差分一起被纳入到反社会行为 
的差分方程中。一同被纳人模型的还有1990年测量的自信 
水平及贫困状况。 




固定效应回归模型 


表 2. 2扩展差分模型的 OLS 估计 



系数 

标准误 


截距 

— 0. 550 

1. 36() 

0. 6859 

SELF 差异分 

-0. 060 

0. 020 

0. 0024 

POV 差异分 

0. 031 

0. 156 

0. 8446 

1990 年的 SELF 

-0. 018 

0. 025 

0. 4826 

1990 年的 POV 

0. 121 

0. 178 

0. 4991 

BLACK 

-0. 100 

0. 155 

0. 5158 

SPANIC 

0. 084 

0. 164 

0. 6109 

CHILDAGE 

0. 220 

0. 107 

0. 0409 

MARRIED 

— 0. 206 

0. 154 

0. 1808 

GENDER 

0. 101 

0. 126 

(X 4262 

MOMAGE 

-0. 040 

0. 030 

0. 1842 

MOMWORK 

-0. 153 

0, 140 

0. 2735 


呈现在表 2. 2中的结果与表 2. 1中的发现一致。自信 
水平(差分)的回归系数为 一0. 06且高度显著，而贫困状况 
(差分)的回归系数高度不显著。1990年的自信水平及1990 
年的贫困状况的系数都不显著，表明自信水平及贫困状况的 
影响在不同时期保持不变。在7个非时变变量中，只有一 
个^—小孩在1990年的年龄——统计显著（勉强显著而 
已）。这一结果并不表示其他6个变量不会影响反社会行 
为，而是说它们的影响在1990年和1994年实质上是一样的。 
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第 3 节 I 每个个体被观察三期及 

以上的一阶差分方法 


当每个个体被观测时点数等于3或更多时 （T > 2) ，如 
何拓展我们刚刚考虑过的方法，并不那么显而易见。在上述 
NLSY 数据中，我们实际上有三个年份的数据——1990年、 
1992年和1994年。一种可能的办法是，建立并估计两个一 
阶差分方程。依据方程 2. 2 .我 们有： 

jy,2 — 乂 1 = ("2 — ) + 卢 (x , 2 — JT n ) + (e,2 — e t 1 ) 

^.■3 — yn = ("3 — "2 ) 十 (KjOii — X ,2 ) + ( e t ；i — e ,2 ) 

[ 2 . 8 ] 

这两个方程可以用 OLS 方法分开进行估计，且都能得到 
对0的无偏估计。表 2. 3前面两列给出了 NLSY 数据的这 
一结果。两个差分方程中自信水平的系数都为负，大小几乎 
一致，并且都高度显著。贫困状况在两个方程中都很不显 
著。截距表示在控制了上述两个变量后，反社会行为水平从 
一个时期到下一个时期发生的变化。尽管在两个为期两年 
的时段中，反社会行为都有所增长，但只有1992年到1994年 
的变化在统计上是显著的。 

假定^系数在不同时期保持不变，则应该对这两个方程 
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进行同时估计，以获得最佳效率。这可以通过创建一个每个 
人有两条记录的统一数据集来实现 ，一 条记录包含第一个方 
程所用的差分值，另一条则包括第二个方程所需的差分值。 
另外还有一个虚拟变量将第一条记录与第二条记录区别开 
来。而且，还需要有一个变量，该变量中，同一个人的两条记 
录有着相同的 ID 号。 

表 2. 3的第三大列给出了对这一包含1162条记录的合 
并数据集应用 OLS 回归得到的拟合结果。不出所料，自信水 
平和贫困状况的回归系数取值处于前两列对应系数取值之 
间。不过，由于使用了更多的信息，（该结果的）标准误要稍 
微小一些。该模型的截距可以被解释为 a — a 的估计值，而 
方程虚拟变量的系数则是对 （P _ (A — ) 的估计。两 
者都是正值，这说明反社会行为从时间1到时间2有所增 
加，并且从时间2到时间3期间增加得更快。不过，两者在 
统计上都不显著。 


表 2.3 用自信水平及贫困状况解释反社会行为的 一阶差 分回归 



1992—1994 OLS 

1990—1992 OLS 

组合 OLS 

组合 GLS 

系数 

标准误 

系数 

标准误 

系数 

标准误 

系数 

标准误 

截距 

0. 71** 

0.059 

0.040 

0.053 

0. 045 

0.056 

0.05 

0.056 

SELF 

-0. 072** 0.016 

-0. 039“ 

0.014 

-0. 055 

0.010 

-0. 055 

** 0.010 

POV 

0.216 

0. 136 

0. 197 

0.133 

0.213 

0. 095 

0. 139 

0. 094 

方程虚 





0. 122 

0,080 

0.122 

0.094 

拟变量 










注： **户<0.01 

尽管组合 OLS 回归估计是无偏的，但它忽视了 e 2 — 同 


e 3 - e 2 之间很有可能存在的负向相关，因为它们包含一个共 
同因素£ 2 ,符号却相反。这意味着系数估计的效率可能并不 
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充分，且标准误的估计可能有偏差。这一问题可以通过先估 
计岀误差项之间的相关，然后用广义最小二乘法 (generalized $ 
least squares ， GLS ) 结合相关办法来解决。 

多数综合性统计软件都带有进行 GLS 分析的程序。这 
类程序通常需要指定一个 ID 变量，以识别哪些记录来自同 
一个体。这里我用的是 Stata 软件中的 xtreg 命令及 pa 选 
项，它能以 GLS 方式估计线性模型。 [3] (本例题的) GLS 估计 
结果在表 2. 3的最后一列，它们和前一列的 OLS 系数估计值 
及标准误非常相似。 

一阶差分方法很容易就能扩展到每个个体被观察三期以 
上的情况。如果每个个体被观察了了个时期，就创建了一 1条 
记录，每条记录都含有各变量相邻两个时期的差分值。此 
外，必须有一个变量赋予来自同一个体的所有记录相同的 ID 
号，而另一个或一组虚拟变量则将同一个体的不同记录区别 
开来。然后对全部记录进行回归估计，并利用 GLS 对误差项 
之间的相关进行修正。除非： T 特别大，如大于10,否则最好 
允许误差项相关矩阵处于非结构状态。也就是说，该矩阵允 
许每对误差项之间的相关都不同。在了较大的情况下，更好 
的做法是(给该矩阵)强加一个简化结构，以减少需要估计的 
不同相关的数量。更多细节请参见格林的著作 （ Greene ， 
2000)。 
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第4节 | 每个个休被观察两期及 

以上的虚拟变置法 


尽管多阶差分法是估计多期数据固定效应模型的合理 
方式之一，不过“固定效应”这一称呼通常被保留给另外一种 
不同的方法,这种方法既可以通过虚拟变量实现，也可以通 
过创建离均差的方式来实现。由固定效应法产生的结果与 
差分法产生的结果虽然经常极其相似，但并不完全相同。在 
两期数据情况下，两种方法给出的结果完全相同。 

虚拟变量法所要求的数据集具有非常不同的结构 ：（ 在 
这种数据集中）每个个体每一时期都有一条记录。以 NLSY 
数据为例，要求的数据集中，581个小孩每个人有3条记录， 
共有1743条记录。每条记录中同一个时变变量的变量名 
相同,但取值不同。而所有非时变变量的取值，在同一个体 
的不同记录上只是简单复制而已。数据集中有一个 ID 变 
量，来自同一个体的所有记录（在该变量上）取值相同。最 
后，有一个变量将每个个体的不同时期区分开来。例如在 
NLSY 数据中， TIME 变量的取值1、2、3对应1990、1992、 
1994。表 2. 4呈现了该数据集的前15条记录，对应开始的 
5个人。 
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表 2. 4每人3条记录的数据集(前 S 个人} 


ID 

TIME 

ANTI 

SELF 

POV 

GENDER 

1 

1 

1 

21 

1 

1 

1 

2 

1 

24 

1 

1 

1 

3 

1 

23 

1 

1 

2 

1 

0 

20 

0 

1 

2 

2 

0 

24 

u 

1 

2 

3 

0 

24 

0 

1 

3 

1 

5 

21 

0 

0 


2 

5 

21 

0 

0 

3 

3 

5 

24 

0 

0 

4 

1 

2 

23 

0 

0 

4 

2 

3 

21 

0 

0 

4 

3 

1 

21 

0 

0 

5 

1 

1 

22 

0 

1 

5 

2 

0 

23 

0 

1 

D 

3 

0 

24 

0 

1 


为了使用这种方法，首先必须建立一套虚拟变量，以将 
数据集中的每个个体区别开来。在我们的例子里，这意味着 
(需要建立 )580 个虚拟变量，以代表581个儿童。只要将 ID 
变量设置为分类变量，很多统计软件就能自动完成这一任 
务。如果 TIME 变量也被设置成为分类变量，那就会产生两 
个虚拟变量，以区别这三个（调查）年份。然后我们就可以用 
OLS (—般最小二乘法）来对系数进行估计。事实上，由 ID 
变量创建而来的虚拟变量的回归系数是对方程 2. 1中的 at 
的估计，只是其中之一已被限定等于 L 

我在 Stata 中用 reg 命令完成这一 回归％ ，结果在表 2. 5 
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左边一栏。这里只给出了前9个虚拟变量的系数。 


表 2. 5用自信水平及贫困状况对反社会行为做回归——虚拟变置法 



固定效应 


常规 OLS 


系数 

标准误 

P 

系数 

标准误 

P 

SELF 

— 0. 055 

0. 010 

0. 00 

— 0. 067 

0. 011 

0. 00 

POV 

0. 112 

0. 093 

0. 23 

0.518 

0. 079 

0. 00 

TIME_2 

0. 044 

0. 059 

0. 45 

0. 051 

0. 090 

0. 58 

TIME.3 

0. 211 

0, 059 

0, 00 

0. 223 

0. 091 

0. 01 

ID 一 2 

-0. 887 

0. 819 

0. 28 




ID 一 3 

4, 131 

0. 811 

0. 00 




ID_4 

1.057 

0. 819 

0. 20 




ID_5 

— 0. 536 

0.819 

0. 51 




ID_6 

0. 040 

0. 820 

0. 96 




ID_7 

2. 170 

0.821 

0. 01 




ID_8 

0. 910 

0. 820 

0. 27 




ID_9 

-0. 276 

0. 819 

0. 74 





将表 2. 5中的结果与表 2. 3最后一列（通过一阶差分法 
得到的结果)进行比较，可以看到，自信水平的回归系数及标 
准误看起来几乎一样。虚拟变量法得到的贫困状况的回归 
系数略微小些，但在两种方法中都很不显著。 TIME _2 和 
TIME _3 的系数表示与参照组 （ TIME _1) 的对比情况。可以 
发现，就平均水平而言，反社会行为随着时间的变化有所增 
长， TIME _3 显著地高于 TIME _1 0 

为了进行比较，表 2. 5右边部分给出了未放入580个虚 
拟变量时各系数的 OLS 估计情况。与两期数据分析时看到 
的一样，两种方法所得结果的较大差异主要在于常规 OLS 回 
归中 POV 的系数要大得多，并且高度显著。因此，当我们控 
制了个体间的所有差异，只关注个体内变化时，贫困对反社 
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会行为的突出影响也就消失了。 ® 另外，标准误的比较也有点 
意思。 POV 系数的标准误在固定效应估计中相对较大，这是 
没有使用个体间差异信息导致的典型结果。另一方面，对 
SELF 及两个 TIME 虚拟变量来说，固定效应标准误比常规 
OLS 的要小。为什么会有这种差异呢？这涉及个体内变异 
与个体间变异的相对大小问题。对 POV 变量而言，70%的 
变异在个体之间，而在 SELF 变量中，这一比例只有53%。= 5 = 
至于 TIME 虚拟变量，所有的变动都是个体内的，个体之间 
没有差别。（事实上)最适合使用固定效应分析的情况 是：时 
变预测变量的所有变异都是个体内的，而在反应变量上，不 
同个体之间仍然存在大量差异。 

虚拟变量法的问题在于•.对全部虚拟变量的系数进行估 
计，会使计算负担非常重，尤其是在样本量很大的情况下，甚 
至会超过软件或机器内存的能力范围。幸好，还有另外一种 
备选的算法——离均差法——能够产生完全一样的结果。 
唯一不足的是，后者不提供代表不同个体的虚拟变量的系数 
的估计，不过它们倒很少是我们所关心的。 

离均差算法是这样进行的。对于每个个体及每个时变 
变量(包括反应变量和解释变量），我们都计算该个体在不同 
时点上的取值的 均值： 


义=士 

n t , 

x, — — ^ x 


①此处原文为 “the apparent effect of poverty on self - esteem ”， 根据上下文应该是 


作者的笔误。因为模型中是用贫困状况解释反社会行为，自信水平并不是因变 
量^——译者注 
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其中， n , 是个体：被测量的次数。然后用每个变量的观察值 
减去每个人对应变量的平 均值： 

y* t = — 

=： r — 7 

最后，将 y 对/及代表时间效应的虚拟变量做回归。 
这种方法有时被称为“条件”法，因为它通过上述条件把固定 
效应虚拟变量的系数给消除掉了。 

如果手工创建这些离均差值，然后利用普通回归程序估 
计这些系数，你会得到所有这些系数的正确 ols 估计。但标 
准误和/>值是不正确的。这是因为常规回归中自由度的计 
算仅基于设定模型中的自变量数，而实际上它应该包括模型 
中潜在地使用了代表样本中不同个体的虚拟变量的数目（在 
NLSY 数据中为580)。我们当然可以找到正确计算标准误 
及夕值的公式 ( Judge 、 Hill、Griffith & Lee , 1985)，但让软 
件帮你计算岂不更省事。例如， Stata 中的 xtreg [6] 命令就能 
为固定效应模型提供正确的 计算; SAS 程序 PROC GLM 过 
程步中的 ABSORB 语句也能做到。 

利用 xtreg 命令，我设置了一个固定效应模型 ( FE 选项）， 
将 ID 作为识别同一个体记录的变量。结果与表 2. 5前五行一 
样。 xtreg 还专门为固定效应模型提供了另外几个统 计量： 

(1) F 检验，检验所有固定效应虚拟变量系数都等 
于0这一虚无假设是否成立。在这个例子里 ，户值 比 
0. ⑻01还要小，因此，可以很有把握地拒绝虚无假设。 
这相当于说，有证据表明存在于个体层面的未被观测的 
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异质性。也就是说，个体之间在反社会行为上存在着稳定 
的差异，已被观测到的解释变量并不能完全^释这_焉异。 

(2) 因变量方差中被固定效应（各个仏） 靖解錄 

例的估计，这一统计量标着“ rho (fraction of variance due 
to u _ i )”。 在这个例子里，它的估计值是 0. 64。 

(3) 固定效应与估计的时变自变量线性组合 
之间的相关系数的估计。在随机效应模型中，这一相关 
系数被假定等于0。对于当下这个数据，该相关系数等 
于 0. 068。 

(4) 三个确定系数记：个体内确定系数、个体间确 
定系数及总的确定系数。个体内确定系数就是用离均 
差变量进行回归时得到的常规确定系数。这里为 
0.033。个体间确定系数是各个体的: v 均值与各个体的 
j 均值预测值之间的相关系数的平方，在此是 0. 041。 
最后，总的确定系数 (0. 036) 是: y 值本 身与: y 值预测值之 
间的相关系数的平方。这三个确定系数都是用预测值计 
算得到的，但计算时只使用了估计的回归系数，.而没有使 
用固定效应虚拟变量的回归系数。如果将这些系数纳入 
使用虚拟变量法，这一数据的确定系数将提高到 0. 73。 

前面已经提过，这种方法的特征是它不能对非时变自变 
量的系数进行估计。这是很显然的，因为用每个个体的非时 
变自变量取值(在所有时期都一样）减去其对应的个体内均 
值后，所有个体取值都将等于 0。 应该记住的是，我们仍然控 
制了所有非时变自变量，尽管它们已被从方程中排除掉了。 
在下一节，我们将进一步讨论如何检验这些变量的影响本身 
是否也是非时变的。 
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第5节 | 在固定效应法中设置与 

时间的交互作用 


在两期数据情况下，我们已经知道如何拓展差分法以让 
自变量的回归系数在不同时期有所不同。对于时变变量，将 
时间1时的测量值纳入原差分模型即可。对于非时变变量， 
则直接纳入模型。在虚拟变量法(或等效的离均差法）中，这 
一扩展是通过加人各变量与时间的交互项来实现的。 

对于有三期调查的 NLSY 数据，表 2. 6给出了纳入 
TIME (当做分类变量处理)与时变变量及非时变自变量的交 
互作用后的模型 结果。 由于 TIME 有三个类别，因此它与每 
个自变量有两个交互项。注意，模型中不包括非时变自变量 
的主效应。即使我们试图将它们纳入模型，软件也会都丢 
掉，因为它们在个体内不存在变异。 


表 2. 6与时间的交互作用 



系数 

标准误 

t 

P 

TIME_2 

0. 291 

1.245 

0. 23 

0. 82 

TIME 一 3 

一 0. 444 

1. 258 

— 0. 35 

0. 72 

SELF 

-0. 034 

0. 016 

— 2. 08 

0. 04 

POV 

0. 097 

0. 130 

0. 75 

0. 46 

TIME—2 * SELF 

一 0. 026 

0.020 

-1. 28 

0. 20 

TIME_3 * SELF 

-0. 023 

0. 021 

—1. 09 

0. 28 
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续表 




系数 

标准误 

/ 

P 

TIME_2 * 

POV 

一 0. 112 

0. 152 

-0. 74 

0. 46 

TIME_3 * 

POV 

0. 099 

0. 155 

0. 64 

0. 52 

TIME.2 * 

BLACK 

0. 250 

0. 144 

1. 74 

0.08 

TIME_3 # 

BLACK 

— 0. 110 

0. 144 

-0. 77 

0. 44 

TIME_2 ^ 

HISPANIC 

0. 190 

0. 154 

1. 23 

0. 22 

TIME_3 * 

HISPANIC 

0. 075 

0. 153 

0. 49 

0. 62 

TIME_2 * 

CHILDAGE 

0. 076 

0. 100 

0. 76 

0. 45 

TIME_3 * 

CHILDAGE 

0. 227 

0. 100 

2. 26 

0. 02 

TIME_2 * 

MARRIED 

一 0. 095 

0. 143 

—0. 67 

0. 51 

TIME_3 - 

MARRIED 

-0. 176 

0. 143 

— 1. 23 

0. 22 

TIME 上 

GENDER 

0. 041 

0. 118 

0. 35 

0. 73 

TIME_3 * 

GENDER 

0. 107 

0. 118 

0. 91 

0. 37 

TIME 一 2 * 

MAMAGE 

— 0. 027 

0. 028 

一 0. 96 

0. 34 

TIME—3 * 

MOMAGE 

一 0. 042 

0. 028 

-1.52 

0. 13 

TIME—2 * 

MOMWORK 

0. 0137 

0. 131 

1. 05 

0. 29 

TIME_3 * 

MOMWORK 

-o. 144 

0. 130 

-1. 11 

0. 27 


对于每一个交互项， f 统计量检验的是系数在 Time 2 或 
Time 3 时是否与在 Timel 时不同。在 18 个交互项中，只有 
一个 ( TIMERS ** CH 1 LDAGE ) 统计显著 （/> = 0. 024)。 对于 
该交互项，系数 0 . 227 表明 Time 3 时 CHILDAGE 的系数比 
Timel 时要高 0.227。 当然，在检验多达 18 个的情况下，即 
使没有任何实质性依据，我们也可以大胆地赌一把，认为其 
中至少会有一个显著。不过，在检验 18 个交互项都等于 0 
的同时检验 (simultaneous test ) 中，值等于 0_ 15。① 


①这说明整体而言， 18 个交互项并没有显著的解释效果，纳人交互项后模型没 


有显著的改善。——译者注 
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第6节 | 与随机效应模型的比较 


固定效应模型的一个非常流行的替代者是随机效应或 
混合模型。这一模型是在我们用于固定效应模型的同一方 
程上发展出 来的： 

yu — P-t +^ x (/ + yz t + a , + e t ； [2. 9 — 

最关键的区别在于，现在我们不把 a , 当做一套固定数字 
(等价于把 a 看做随机的，但与 A 之间存在所有可能的相 
关），而假定 a , 是一套有着特定概率分布的随机变量。例如， 
通常假定每个 a , 都服从0均值且等方差的分布，并且与方程 
右边的其他所有变量都保持独立。 

现在有很多软件可以用来估计随机效应模型。 SAS 可 
以通过 MIXED 程序进行。 Stata 中的 xtreg 命令在默认情况 
就能进行随机效应模型的 GLS 估计。表 2. 7给出了 xtreg 
命令产生的包含非时变变量及不含非时变变量的随机效应 
模型的估计结果。 

能够纳入非时变变量是随机效应模型与固定效应模型 
最显著的差别。不过，这里我们发现纳入此种变量并不会使 
时变预测变量的系数发生太大改变，不管是自信水平还是贫 
困状况。 
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与表 2. 5 中的常规 OLS 回归估计相同而与固定效应估 
计不同的是，随机效应估计中这两个变量的系数都是高度显 
著的。随机效应模型与常规 OLS 方法相似，并不足为怪。如 
果 a 与其他所有变量都不相关这一随机效应假定正确的话， 
这两种方法都能产生对方程 2. 9 的系数的一致估计（因而也 
是近似无偏的估计）。但如果这一假定并不正确，那这两种 
方法的估计都将有偏。 


表 2. 7随机效应模型的 GKS 估计 



系 

数 

标准误 

P 

系 

数 

标准误 

P 

SELF 

— 0 . 

062 

0 . 

009 

0 . 

00 

-o. 

060 

0 , 

009 

0 . 

00 

POV 

0, 

247 

0.080 

0 . 

00 

0 . 

296 

o. 

077 

0 . 

00 

TIME 一 2 

0 . 

047 

0 . 

059 

0 . 

42 

0 . 

047 

0 . 

059 

0 . 

42 

TIME 一 3 

0 . 

216 

0, 

059 

0 . 

00 

0 . 

216 

0 . 

059 

0 . 

00 

BLACK 

0 . 

227 

0 . 

126 

0 . 

07 







HISPANIC 

_o. 

218 

0 . 

138 

0 . 

11 







CHILDAGE 

0 . 

088 

0 . 

091 

0 . 

33 







MARRIED 

-o. 049 

a 

126 

0 . 

70 







GENDER 

-o. 

483 

o. 

106 

a 

00 







MOMAGE 

— 0 . 

022 

0 . 

025 

0 . 

39 







MOMWORK 

0 . 

261 

0 , 

115 

0 . 

02 








为何 POV 变量在随机效应模型中高度显著而在固定效 
应模型中非常不显著呢？如早前已经解释过的一样，一旦一 
个系数在随机效应模型中显著而在固定效应模型中不显著， 
首先要做的就是比较两者的标准误。因为固定效应模型的 
标准误通常要比随机效应模型的标准误大得多，仅此一点， 
就能解释它的 f 值为什么会较大。当然，在这里，固定效应 
模型中 POV 变量的标准误虽然稍大 (0. 09比 0. 08)，但并不 
足以解释上述显著水平上的差异。即使我们将 0.09 替换为 
0.08,固定效应模型中 POV 的系数仍然不会显著。显然，主 
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要差异在于两个系数的大小不同，在固定效应模型中是 
0. 11，在随机效应模型中是 0. 25( 或 0. 30,非时变变量得到控 
制时）。对这一差异最可能的解释是，存在着某些不可观测 
的变量能够“解释”我们（在随机效应模型中）看到的贫困状 
况与反社会行为之间的相关。一旦这些不可观测的变量通 
过固定效应模型被控制了，上述两个变量之间的相关也就消 
失了。 

这里的关键在于，与一般流行的观念不同，估计一个随 
机效应模型并不能真正“控制”未被观测的异质性。这是因 
为，常规随机效应模型假定观测变量与未被观测的变量之间 
不存在相关。相反，固定效应模型允许非时变自变量与时变 
自变量之间的任何相关。不过，这样做的代价是，当这些相 
关确实为零时，固定效应模型将失去一些效率。 

已有的研究显示，随机效应模型实际上只是固定效应模 
型的一个特例 （ Mundlak ， 1978)。也就是说，如果以方程 2. 9 
的常规随机效应模型作为开始，然后允许 a , 与:变量之间的 
所有可能相关，你将得到固定效应模型的等价物。通常而 
言 ，一 旦要在两个相互嵌套的模型（其中一个是另一个加上 
某些限制条件的结果）之间作出选择，都会存在偏差与效率 
之间的得失权衡问题。较简单的模型（随机效应模型）可以 
得到更有效率的估计，但如果加在模型上的限制条件是错误 
的，那这些估计就可能是有偏的。较为复杂的模型（固定效 
应模型)不那么容易产生偏差，但代价是抽样变异性会相对 
较大。 

在此得失权衡面前，如果有一种统计检验能对随机效应 
模型与固定效应模型进行比较，那将大有用处。此种检验能 
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够帮助我们判定随机效应方法所带来的偏差是小到足以忽 
略的程度，还是大到我们不得不选择限制条件更少的固定效 
应模型。这些检验中，最有名的是 Hausman 检验 （1978) ，该 
检验的虚无假设是随机效应系数与固定效应系数相同。 [7] 这 
种检验在很多统计软件中都能找到。对于手头这个例子，最 
直接的检验是对表 2. 5中的固定效应系数与表 2. 7左边部 
分的随机效应系数进行比较，后者控制了几个非时变变量。 
我用 Stata 中 xtreg 命令的这一检验得到的 p 值等于 0. 04, 
这一证据并不支持随机效应模型，而比较倾向于固定效应模 
型。在下一节，我将介绍另外一种效果比目前 Stata 中采用 
的 Hausman 检验更好的检验方法。 



M 
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第7节I混合（模型）法 （A Hybrid 


Method) 




现在来考虑如何将固定效应模型和随机效应模型的某 
些优点综合起来。前面我们已经看到，估计固定效应模型的 
方法之一是将所有变量都表达成与个体均值的离差，然后对 
这些离均差变量运用 OLS 回归。在混合法中，时变 x 变量再 
次被处理成为与个体均值的离差，但是反应变量: V 没有。而 
且与前面的固定效应方法不同，现在我们将非时变变量 Z 也 
纳入到模型中。此外，我们还将表示每个时变变量个体内均 
值的变量（同样是非时变变量)也纳入模型。最后，我们不采 
用 OLS 回归，而是估计一个随机效应模型，以保证标准误能 
够反映同一个体的多个观测记录之间的相依性。 [8] 

表 2. 8给出了针对 NLSY 数据的分析结果。 DSELF 和 
DPOV 是离均差变量。 MSELF 和 MPOV 是个体内均值。首 
先应该注意的是，表中 DSELF ， DPOV 以及两个时间虚拟变量 
的回归系数和标准误与我们在表 2. 5的固定效应方法中看到 
的完全一样。因此，我们又有了一■种产生固定效应估计的方 
法。 [9] 实际上，对于 DSELF 和 DPOV 来说，不管方程中放进什 
么非时变变量，即使我们将 MSELF 和 MPOV 以及其他非时 
变变量都删除，时变变量的系数和标准误都将保持不变。当 
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然，从这一混合方法中我们得到的是对非时变变量效果的估 
计,而这是通过常规的固定效应方法所不能得到的。 


表 2. 8混合法估计结果 



系数 

标准误 

P 

DSELF 

— 0.055 

0 . 010 

0. 00 

DPOV 

0, 112 

0 . 093 

o. 22 

MSELF 

— 0. 090 

0. 022 

0 . 00 

MPOV 

0. 616 

0. 157 

0. 00 

BLACK 

0, 111 

0. 132 

0. 40 

HISPANIC 

-a 280 

0. 139 

a cm 

CHILDAGE 

0 . 086 

0. 091 

0. 35 

MARRIED 

— 0.128 

0. 128 

0. 32 

GENDER 

— 0. 508 

0. 107 

0. 00 

MOMAGE 

— 0 . 011 

0. 025 

0. 65 

MOMWORK 

0. 164 

0. 119 

o. 17 

TIME.2 

0. 044 

0. 059 

0. 45 

TIME 一 3 

0. 211 

0. 059 

0 . 00 


在多层模型 文献中 （Bryk 8^ Raudenbusch， 1992 ； Glod- 
stein，1987； Kreft De Leeuw, 1995) ， 将各时变变量减去 
个体内均值的做法叫做按组均值对中 （group mean center¬ 
ing) 0 尽管大家都知道对中后将产生非常不同的结果，但这 
类文献仍没有将其与固定效应模型联系起来，也没有认识到 
按组均值对中将控制所有非时变预测变量。 

均值变量 MSELF 和 MPOV 的估计系数本身并不特别具 
有启发性。但将这些变量纳入模型很重要，原因 有二: 第一， 
它们可以帮助我们得到更好的有关其他非时变变量效果的估 
计。将 MSELF 和 MPOV 排除，意味着我们没有完全控制这 
些变量。第二，将它们的系数与离均差变量 DSELF 和 DPOV 
的系数进行比较，能够让我们对事情有更深的了解。如果随 
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机效应模型的假定是正确的（即&项与 X 变量无关），那么每 
个变量对应的离均差变量与均值变量的系数应该一样(除去 
抽样变异后）。对于 DSELF 与 MSELF 来说,这确实相差不 
远。但 MPOV 的系数比 DPOV 的系数要大得多。实际上，在 
我们估计常规随机效应模型时，得到的 SELF 和 POV 的系数 
就是这些“(个体)内”系数和“(个体）间”系数的加权平均数。 
这进一步意味着我们可以通过检验这两对系数之间的相等性 
来检验随机效应模型与固定效应模型的差异（这就是可以替 
代前面讨论过的 Hausman 检验的另一检验)。这在 Stata 中做 
起来非常容易(使用的是 Wald 检验)，所得值为 0. 007,可算 
是反对随机效应模型的鲜明证据。 

混合法的另一诱人之处在于，它可以实现在常规的固定 
效应估计方法中不易实现的多种有趣的拓展。到目前为止， 
我们讨论的随机效应模型都还只是随机截距模型。我们还 
有可能估计随机斜率模型。例如，我们不再假定 DSELF 的 
系数对于每个人都一样，而假定其为一个随机变量，然后估 
计其均值与标准差。此种模型通过 SAS 中的 MIXED 子程 
序或者 Stata 中的 xtmixed 命令很容易就能搞定。后一命令 
产生的 DSELF 系数的平均值的估计 值为一 0. ⑻5。该系数 
对应的标准差估计值为 0. 070,是其标准误 0. 024的两倍以 
上，这强烈地 表明: DSELF 的影响在不同个体上存在差异。 

通过使用混合法，还可以估计含有更复杂的误差结构的 
模型，例如，三层结构或自回归结构，而不仅仅是常规固定效 
应模型所隐含的简单结构。关于此类模型的更多信息，可以 
参看辛格和威利特的著作 (Singer & Willett , 2003)。 
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第 8 节 1 总结 


可以看到，共有几种等价的方法用来估计定量反应变量 
线性固定效应模型： 

(1) 如果每个个体只被观察了两期，先对所有时变 
预测变量创建差分值。然后，对反应变量的差分值对顿 
测变量的差分值做 OLS 回归。 

(2) 不管观察了多少个时期，转换数据结构以使每 
个个体在每一观察期都有一条记录。然后进行 OLS 回 
归，回归时纳入代表每个个体的虚拟变量组（缺省其中 
的一个）。 

(3) 对于方法2中的数据结构，将所有时变变量转 
变为相对于个体内均值的离差值。然后对这些离差值 
做 OLS 回归（并修正标准误统计检验及 p 值）。通过 
Stata 中的 xtreg 命令可以很方便地完成。 

(4) 对于方法2中的数据结构，只将自变量转变为 
相对于个体内均值的离差值。然后估计一个随机效应 
模型，模型中的自变量中同时包括（各时变变量的个体 
内）均值以及相对这些均值的离差值。 
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在这些方法中，第四个最为灵活。它具有其他一个或多 
个方法所不具备的如下 能力： 

纳入在个体内不存在变异的预测 变量； 

对固定效应与随机效应假定进行 检验； 

为存在个体内变异的自变量提供随机系数估计； 
容许更为宽松的误差结构。 

无论使用何种运算方法，固定效应模型都能高效地控制 
所有非时变预测变量，不管是得到测量的还是没有被测量 
的。这是其与随机效应模型相比的主要吸引力所在。不过， 
固定效应模型的一个重要假定在于，非时变预测变量在各个 
时期必须有着相同的影响。那些作用效果在各个时期并不 
恒定的变量必须被明确地纳入模型（才能得到控制）。另外， 
当然，固定效应方法对未被测量的时变变量没有任何控制。 
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在这一章，我们将了解到如何将上一章的固定效应方法 
一般化，以适用于分类反应变量。为了探索这些方法，我们 
将用一个同样来自全美青少年长期跟踪调查 ( NLSY ) 的数据 
集。这一数据集有1151名自1979年开始每年都被访问一 
次、连续访问了五年的青少年女孩。反应变量 POV 1- POV 5 
是二分变量 :在这 五年期间的每一年，判断女孩所在家庭根 
据美国联邦的标准是否处于贫困状态，贫困则编码为1，非贫 
困则编码为0。我们的自变量 如下： 


AGE 第一次被访时的年龄 

BLACK 如果受访者为黑人则编码为1，否则为 0 

MOTHER 如果受访者目前至少有一个孩子则编码为 
1，否则为0 

SPOUSE 如果受访者目前与配偶生活在一起则编码 
为1，否则为0 

SCHOOL 如果受访者目前为在校注册学生则编码为 
1，否则为0 

调查所在周已工作的小时数 


HOURS 
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前两个变量是非时变变量，而后面四个变量的取值在每 
次调查时都可以不同。 

现在我们处理的已经不是线性模型了，而是 logistic 回 
归模型，与方程 2. 1相似，我们的基础模 型是： 

log ( y ._ fJL t ^ jo tt + ye , + a ,- » t = 1 , 2 , …， T 

[3.1] 

其中，九是响应变量等于 1 的概率。如以前一样， A 是时变 
预测变量向量 A 是非时变预测变量向量，表示所有未被 
观测的恒定变量的综合影响。在这一章，我们将把 a 看做一 
套固定的常量，每个个体都有一个。但这相当于假定^是随 
机的且对 I 与之间的相关不做任何限制。 
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固定效应回归模型 


第1节 I 两期数据（固定效应分析） 

乂）， ^:： ： v ^ 3 i ,；：；. r ,^： a ；^； ； 3 - 3 ：^ ：{ . ； v ^ m ..::?:... 


在第 2 章中，我们看到两期数据情况下，固定效应线性 
模型可以通过计算所有变量的差分值，然后运用一般最小二 
乘回归的方式进行估计。对于 logistic 回归，类似的做法同 
样是可能的，但有一些重要的区别。 

表 3.1 第一年与第五年贫困状况的交互分类情况 


第五年的贫困状况 

第一年的贫困状况 - 

0 1 合计 


0 

516 

234 

750 

1 

211 

190 

401 

合计 

727 

424 

1151 


下面我们对 NLSY 数据做一个固定效应 logistic 回归， 
先忽略第2、3、4年，只关注年份1和年份5。尽管这两个年 
份间贫困的边缘分布改变得很小，但仍然有234个女孩的家 
庭陷入贫困状态，同时有211个女孩脱离了贫困。 

为了进行固定效应 logistic 回归，我们先将 706 个（贫困 
状况)在五年内未发生变化的女孩排除在外。这是因为固定 
效应模型只使用个体内变异，对于这些女孩而言，其响应变 
量并不存在个体内的变化。因此，我们只剩下 445 个贫困状 
况发生过改变的女孩。在这一缩减后的样本上，我们令 A 表 
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示 P 0 V 5 = 1的概率，即一个女孩从状态0转变成状态1,而 
不是从1转变为0的概率。接下来我们再用常规的最大似 
然法估计这一 模型： 

log ( 1 p ) = ("2 — " 1 ) + — x tl ) [3. 2] 

也就是说，我们将 POV 5 作为因变量，将时变预测变量 
的差分值作为自变量，做 logistic 回归。根据下一节的解释， 
这实际上是条件最大似然估计的一种形式。与线性模型中 
一样， A 和&都从方程中被消除。 [1()] 

表 3. 2呈现了 3个回归模型的估计结果，是用 Stata 中 
的 logit 命令估计得到的。模型1只包括时变预测变量的差 
分值。可以看到成为母亲将增加陷入贫困的风险，而与配偶 
居住及工作的小时数越多将降低风险。请再次记住，这些估 


表3, 2两期数据的差分值 logistic 回归 



模型 1 

模型2 

模型 3 

系数 

标准误 

系数 

标准误 

系数 

标准误 

截距 

0. 539** 

0 . 162 

4. 899"* 

1. 644 

3. 052 

1 . 826 

DMOTHER 

0 , 730 “ 

0 . 250 

0. 744 ^ 

0 . 254 

0. 909 ” 

0 . 270 

DSPOUSE 

-1. 002 “ 

0. 283 

-1. 032 料 

0. 292 

- 1 . 022 *" 

0. 301 

DSCH(X)L 

0. 343 

0 . 212 

0. 339 

0 . 218 

0. 639* 

0. 251 

DHOURS 

-0.0339** 

0 . 0061 

-0. 0339“ 

0 . 0062 

-0. 0339"* 

0 . 0068 

BLACK 



-0. 526" 

0 . 216 

-0. 662** 

0.226 

AGE 



-0. 258* 

0 . 103 

一 0. 196 

0 . 111 

MOTHERl 





0. 457 

0. 460 

SP( )USE1 





0. 412 

0. 726 

SCH(X)L1 





1 . 181 

0.471 

HOURS1 





-0. 002.1 

0 . 0128 


注： *0.01<p<0, 5 ，^ p<0. 01 o 
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计都已经控制了所有非时变变量。将是否为母亲这一变量 
的系数 (0. 730) 取指数，我们得到 2. 08。这告诉 我们: 一个女 
孩一旦有了第一个孩子，其陷入贫困的风险将会翻倍。截距 
0. 539可以被解释为一个在所有时变自变量上都未发生变动 
的女孩的贫困对数发生比从年份1到年份5的变化。取指 
数后，我们得到发生比为 1. 71^^也就是说，从年份1到年 
份5,提高了 71 % 0 

模型2加人了两个非时变变量 BLACK 和 AGE ， 两者都 
有着显著的负向作用。这些变量的系数可以被解释为与时 
间的交互作用。因此对这两个变量来说，它们对于陷入贫困 
的风险的影响（从量上说）在年份5时要比在年份1时小。 
或者，这些系数也可以解释为历时变化的速率在不同子群体 
中是如何的不同。更具体的，对于一个从年份1到年份5期 
间时变自变量都未发生变化的女孩来说，这五年期间陷入贫 
困的对数发生比的变化可以表 达为： 

4. 899-0. 526 X BLACK — 0. 258 X AGE ① 

因此，对于一个14岁的在各项其他自变量上都未发生 
变化的非黑人女孩来说，其陷人贫困的对数发生比的预测改 
变量为1.29。等价地说，其陷入贫困的发生比将变为原来的 
exp ( l . 29) = 3. 63倍。而黑人或在年份1时年龄更大的女孩 
贫困的增长率要更低。 

模型3增加了在年份1时测量的时变变量。如在第2章 
一样，这些变量的回归系数可以被解释为每个变量从年份1 


①原书中为 4. 899 — 0. 526 XBLACK — 2. 58 XAGE , 但是根据表3, 2的输出结 
果， AGE 的系数应该为 一 0. 258。——译者注 
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到年份5时作用的变化量，也就是说，与时间的交互作用。 
这些变量中只有 SCHOOL 1 —个统计显著。这样，我们可以 
说，从年份1到年份5期间，是否为在校学生对女孩陷入贫 
困的对数发生比的影响增加了 1. 184。而 DSCHOOL 的系 
数 0.639 是在校生身份在年份5时的作用的估计。由此看 
来，在校生身份在年份1时为负作用 （0. 639 - 1. 184)，而在 
年份5时为正作用。 

总的来说，两期数据 logistic 模型与第2章中两期数据的 
线性回归是非常相似的。最大的不同 在于： logistic 方法要求 
将因变量上未发生变动的个体排除在样本之外。对于因变 
量，我这里使用的是时期2的反应变量，这看起来与线性固 
定效应模型时有所不同。但是如果我不这么做，而用时期2 
的取值减去时期1的取值，那我得到的因变量取值将会是1 
和一 1而不是1和0,而这两者实际上是同一个东西。 
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第2节 I 三期及多期数据 

(固定效应分析） 


如何才能将这种方法扩展到可以使用全部五年而不仅 
仅是第一年和第五年数据提供的信息呢？在第2章，我们 
是通过如下方式来实现的：为每个个体的每一次测量创建 
一条单独记录，将这些记录合成一个数据集，然后估计一个 
含有与各个体对应的虚拟变量的线性回归。另外一种方法 
同样是使用单一个体对应多条记录的数据形式，但避免使 
用虚拟变量，而是将各个变量表达为相对于个体内均值的 
离差的形式。尽管这两种方法会产生同样的结果，但第一 
种方法确切地讲是无条件最大似然法，而后者为条件最大 
似然法。 

条件最大似然法和无条件最大似然法都可用于二分结 
果变量的 logistic 回归，但在这里两者并不产生相同的结果。 
与在线性情况下一样•无条件最大似然法同样是通过为每个 
个体创建多条记录，然后估计一个含有标识各个体的虚拟变 
量的常规 logistic 回归来实现的。不幸的是，这种方法产生 
的系数估计是有偏的 （ Hsiao. 1986 )。事实上 ，在两期观察情 
况下.系数估计值恰好是其本来取值的两倍 （ Abrevaya ， 
1997 ； Hsiao, 1986 )。 导致此种偏差的原因就是所谓的伴随 
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性参数问题 （Kalbfleisch & Sprott ， 1970； Lancaster , 2000)。 
也就是说，样本规模一旦增加，参数(尤其是与各个体对应的 
虚拟变量的系数）的数量也会直接增加，从而违背了最大似 
然估计的渐近理论的重要前提之一。 

解决方案就是采用条件似然法，这一方法使^参数被 
“条件出 ” （conditions out ) 似然方程① （ Chamberlain ， 1980)。 

它是通过将似然方程限定在每个个体被观察的事件总数一 
定的条件上来实现的。从效果上讲，每个人对似然函数的贡 
献，就是对如下问题的回 答：如 果一个女孩在五年内有两年 
处于贫困状态，那么这一事件发生在，比方说年份2和年份4 
(当实际发生时），而非另外9对可能的年份组合之一的概率 
是多大？这些条件概率不包括参数。此种条件似然法只 
适用于二分类反应变量的 logistic 回归，不能用于其他“连 
接”函数，如 probit 或互补双对数函数。 

很多统计软件都能对 logistic 回归的此种条件似然值进 
行最大化估计。在 Stata 中，通过 xtlogit 或者 clogit 命令都 
可以实现。这些程序所要求的数据形式与第2章中讨论多 
期数据与 xtreg 命令时描述的一样。每一个体在每个被观察 
的时期都有一条记录，来自同一个体的所有记录都有同样的 
ID 。 非时变变量的取值在同一个体的不同记录中是一样的。 
如果将此种方法应用于两期数据，其产生的结果将与上面描 
述的差分法相同。对于这个5年份示例数据，表 3. 3给出了 
工作数据集中的前15条观察记录。这些记录来自三个女 
孩，每个人被观察了五年。 


①实际上就是在方程中被抵消掉。——译者注 
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表 3. 3少女贫困问题数据集的前 1 S 个观察记录 


观测值 

ID YEAR POV MOTHER 

SPOUSE SCHOOL 

HOURS 

BLACK 

AGE 

1 

22 

1 

1 

0 

0 

1 

21 

0 

16.00 

2 

22 

2 

0 

0 

0 

1 

15 

0 

16.00 

3 

22 

3 

0 

0 

0 

1 

3 

0 

16. 00 

4 

22 

4 

0 

0 

0 

1 

0 

0 

16.00 

5 

22 

5 

0 

0 

0 

1 

0 

0 

16.00 

6 

75 

1 

0 

0 

0 

1 

8 

0 

17.00 

7 

75 

2 

0 

0 

0 

1 

0 

0 

17.00 

8 

75 

3 

0 

0 

0 

1 

0 

0 

17.00 

9 

75 

4 

0 

0 

0 

1 

4 

0 

17_00 

10 

75 

5 

1 

0 

0 

1 

0 

0 

17. 00 

11 

92 

1 

0 

0 

0 

1 

30 

0 

16.00 

12 

92 

2 

0 

0 

0 

1 

27 

0 

16.00 

13 

92 

3 

0 

0 

0 

1 

24 

0 

16.00 

14 

92 

4 

1 

1 

0 

0 

31 

0 

16. 00 

15 

92 

5 

1 

1 

0 

0 

0 

0 

16. 00 


Stata 的 xtlogit 命令对固定样本跟踪数据拟合 logistic 
回归可以采用三种不同的方法：固定效应法（条件似然），随 
机效应法及广义估计方程法 （generalized estimating equa ¬ 
tion ) 0 表 3. 4 给出了对该少女贫困数据应用全部三种方法 
得到的结果。前面两列呈现的是固定效应 logit 模型条件似 
然估计的结果。与两期数据时的情况一样，我们看到成为母 
亲及在校生身份与较高的贫困风险相关，而与配偶同住及工 
作时间越长则与较低的贫困风险联系在一起。 

如何解释这些效应呢？拿 SPOUSE 的 系数一 0.748 来 
说，取幂后我们得到的发生比为 0. 47。也就是说，如果一个 
女孩从没有与丈夫居住的状态变为与丈夫居住，那么她陷入 
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贫困的几率要(在原来的基础上)乘以0.47。实际上就是，结 
婚将使少女陷人贫困的几率减少一半。而 HOURS 的系数 
— 0.0196 取幂之后得到发生比等于0.98。这是说，每个星 
期多工作一小时将使陷入贫困的几率缩小2%。几个 YEAR 
系数都是与年份1的对比，它们都是正的并且都在统计上显 
著。注意，表中没有报告截距项，因为截距项已经“被条件 
出”似然函数。 

表格中接下来的两列呈现的是采用广义估计方程法 
( GEE ) 估计 logit 模型得到的结果，它通过迭代广义最小二乘 
法 （iterated generalized linear squares ) 修正了观察记录之间 

的相依问题。尽管结果的模式与条件似然分析的相似，但存 
在三个重要的差别。第一， SCHOOL 的系数从显著的正值变 
为不显著的负值。第二， GEE 分析中 MOTHER 和 SPOUSE 
变量的系数明显要大得多，而几个年份变量的系数则都要小 
一些。第三，标准误都要更小。 

表 3. 4的最后两列给岀的是随机效应模型的最大似然 
估计。这一模型同样可以用方程 3.1 来表示，只是现在被 
假定为一套随机变量，每一个都服从均值为0且方差恒定的 
分布，并且(最重要的是)与 X ,,保持相互独立。随机效应系数 
估计结果与 GEE 估计结果相似。所有的标准误都要比 GEE 
估计的略大，但比条件似然分析的要小，因为条件似然法没 
有使用任何个体间的变异信息。事实上，条件似然法自动剔 
除了 324个贫困状况在五年期间没有发生任何变化的少女 
(28%)。和两期数据时一样，如果一个人根本没有发生历时 
变化，那自变量也就没有什么可以解释的。 
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表 3. 4 logit 模型的条件似然估计及其他估计 


条件似然估计 GFE a 随机效应 



标准误 



标准误系数 


标准误 


MOTHER 

0. 582“ 

0 . 160 

0 . 850” 

0. 092 

1. 077“ 

0. 119 

SPOUSE 

— t). 748** 

0. 175 

— 0. 930“ 

0 . 121 

- 1 . 238” 

0. 152 

SCHOOL 

0. 272 k 

0-113 

— 0. 045 

0, 077 

一 0.064 

0. 098 

HOURS 

-0. 0196** 

0.0032 

0. 0209** 

0 . 0023 

-0. 0267“ 

0. 0029 

YEAR2 

0. 332 

0 . 102 

0 . 223“ 

0. 073 

0 . 287*" 

0 . 100 

YEAR3 

0 . 335^ 

0 . 108 

0. 171 * 

0 . 080 

0 . 226* 

0. 104 

YEAR‘1 

0 . 433** 

0 . 116 

0 . 196* 

0. 084 

0. 256 * 

0 . 108 

YEARS 

0 . 402"* 

0. 127 

0 . 122 

0. 093 

0. 172 

0. 115 

截距 



-0. 543 ㈠ 

0 ‘ 097 

—0. 681” 

0 . 126 


注 : a. 同时设定了非结构化的相关矩阵，以及基于模型的标准误。 

*0. 01 < p<0. 05, ^ P < 0. 01, 

那么表 3. 4的三套结果中哪一套最好呢？三者最大的 
区别在于， GEE 和随机效应法都没有对未被观测的变量进行 
任何控制。相反，固定效应模型(条件似然法)控制了所有恒 
定变量，将每个女孩作为其自身的控制因素。而且其提供的 
标准误估计也是修正了相依问题的正确估计。不好的方面 
是 :这些 标准误要比随机效应模型及 GEE 估计的标准误大， 
因为数据集中有大量的信息没有被使用。权衡之后，对于这 
个例子，我更倾向于固定效应估计结果，因为它们受被忽略 
变量的影响而产生偏差的机会要小得多。不过，在个体内变 
异相对于个体间变异太小的情况下，固定效应系数的标准误 
可能会太大而难以接受。 

还有一点值得提醒的是•条件似然和随机效应估计都是 
“具体单位的 ” (subject specific ) 估计，而 GEE 估计只是“总体平 
均的 ” (population averaged ) 估计。那么两者的差别是什么呢? 
一个具体单位的系数能够告诉我们，如果一个具体个体的预 
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测变量增加一个单位，那该个体会发生什么。而一个总体平 
均的系数只能告诉我们，如果每个人的预测变量都增加一个单 
位，那么整个总体会发生什么。如果模型是线性的，两种系数之 
间不存在差别。但对于 logistic 回归模型，当然对于其他很多非 
线性模型也一样，具体单位系数一般要大于总体平均系数。 

哪一个更好呢？答案取决于你的目的。如果你是一个医 
生，要估计某种斯达汀类药物能够在多大程度上降低你的病 
人罹患心脏病的风险，那么具体单位系数是很明显的选择。 
相反，如果你是一个政府卫生部门的官员，想知道如果风险人 
群中的每一个人都服用这种斯达汀类药物，因心脏病而死亡 
的人数将会有什么变化，那你最好使用总体平均系数。 

当然，即使是在后一种公共卫生应用中，也有理由认为 
具体单位系数更具有实质性意义。假定真实模型是如方程 
3.1 表达的基本随机效应 bgisdc 模型，其回归系数向量和 
7两者都是具体单位的。如果我们用 Xtlogit 命令通过 GEE 
办法估计这一模型，我们得到的将是总体平均系数 / T 和广。 
这两套系数的差异程度取决于 a , 的方差。特别地，如果 
var ( a ,) = 0,那么/? = ， y =。 a ' 方差增加时， 和/的 

值将向0衰退。当 a 服从正态分布时，两者之间的近似关 系为: 


70. 346 var (%) + 1 」 

因此总体均值系数取决于 logistic 回归中未被观察的异 
质性的程度。对于上面的少女贫困问题数据，％的方差估计 
值为1.454。比较 GEE 系数估计值及随机效应系数估计值， 
我们发现上述关系确实近似地成立。 
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第3节 | 与时间的交互作用 

) 乂：： 巧:'乂'…喊以、义: ： ...，i . ' 


条件似然法的另一个不足之处是它不能对非时变变量 
的回归系数进行估计(尽管这些变量都被潜在地控制住了）。 
不过，时变变量与非时变变量之间的交互项还是可以被放进 
模型中。表 3. 5中，模型1放人了一个变量，它是 MOTHER 
与 BLACK 的乘积，其系数在 0.05 水平上显著。注意，与绝 
大多数含有交互项的模型不一样，这里根本不用（事实上，根 
本就不能)纳入 BLACK 的主效应。交互项解释起来和线性模 
型中的一样。 MOTHER 的系数 0 . 982代表着当 BLACK - 0 
时，也就是说在非黑人少女中， MOTHER 的作用。取幂之后 
得到的对数发生比为 2. 67。因此，对于非黑人少女来说，成 
为母亲将使陷人贫困的发生比在原来的基础上乘以 2. 67。 
要得到成为母亲在黑人女孩中的影响，把主效应加上交互项 
系数， 0. 982-0. 599 = 0. 383,就能得到一个低得多的发生 
比 1.46。 

在模型2中，我们可以看到 YEAR 与两个时变变量 
( SCHOOL 和 HOURS ) 还有两个非时变变量 （ BLACK 和 
AGE ) 之间的交互作用显著。在这一模型中， YEAR 被当做 
一个定量变量而非定类变量，从而使模型及其解释得到简 
化。 「 12 」 YEAR 的编码取值为0到 4( 而不是1到5)，这样 
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SCHOOL 和 HOURS 的主效应可以被解释为 YEAR = 0时 
这些变量的作用，也就说在第一个观察年份的作用。同在交 
互项中的 HOURS 和 AGE 则被表述为与它们各自对应均值 
的离差，这样可以使 YEAR 的主效应的解释变得容易。 


表 3. 5带交互项的条件似然估计 



模型 1 

模型2 

系数 

标准误 

系数 

标准误 

MOTHER 

0. 982“ 

0 . 253 

0. 687 ** 

0. 163 

SPOUSE 

-0. 783“ 

0, 178 

-0. 741 

0 . 178 

SCHCX)L 

0 . 267* 

0. 113 

-0. 311 

0. 190 

HOURS 

一 0 . 0192” 

0. 0032 

—0. 0060 

0. 0063 

YEAR2 

0. 332“ 

0 . 102 



YEAR3 

0. 334 

0 . 108 



YEAR4 

0. 430 “ 

0. 117 



YEARS 

0. 400 ** 

0 . 128 



MOTHER ** BLACK 

-0. 599 - 

0. 290 



YEAR 



0 . 021 

0. 059 

YEAR* SCHOOL 



0. 251 ** 

0 . 063 

YEAR - HOURS 



-0. 0055* 

0 . 0021 

YEAR* BLACK 



—0, 181“ 

0. 048 

YEAR* AGE 



一 0 . 056" 

0. 023 


注： *0. 01<p<0. 05, ** p <0.01 0 

对这些交互项的解释，时变变量与非时变变量之间有所 


不同。对于时变预测变量来说，通常最好是从各个自变量的 
作用是如何随时间变化而变化的角度来进行考虑。例如， 
SCHOOL 的作用可以表述为一个线性 函数： 一0.311 + 
0. 251 X YEAR 。 因此，第一年时，它的作用是负的并且统计 
检验不显著。年份每增加1,它的影响就增加 0. 251，这样到 
第五年时它的作用就达到了 0. 693( 用发生比来说就是2)。 
对于 HOURS 变量，其作用是 一 0. 0060 — 0. 0055 X YEAR 。 
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这样 HOURS 的作用最开始时是负的，并且随着年头的增加 
会持续地变得更负，到第五年时变为 一 0. 028,这相当于说 
每多工作1小时将使陷入贫困的发生比降低 2. 8%。 

对于非时变自变量.交互项最好的解释方式是查看 
YEAR 的作用是如何随着这些变量的变化而变化的。根据 
这些变量的编码方式， YEAR 的主效应 （ 0. 021 ) 代表 YEAR 
在那些既不是黑人也非在校生•并且年龄为平均开始年龄 
15. 65岁，工作时间为平均工作时间& 67小时的少女中的作 
用。而在黑人少女中（其他特征都一样）•年份的作用是主效 
应加上交互作用 （0.021 — 1.81 =—0. 16)。这相当于，每增 
加一年头，少女陷入贫困的发生比就减少15%。我们也可以 
将 YEAR 的作用表达为第一个观察年份时年龄 AGE 的线性 
函数： 0. 021-0. 056 X ( AGE —15. 65)。如此，对 14岁开始参 
与调查的此类少女来说， YEAR 的作用为 0. 1134( 大概是年 
份每增加1年，陷人贫困的发生比就增加12%);而对于17 
岁的此类少女，该作用为一 0. 0546( 从发生比上讲.大约每年 
下降5%)。[ 13 ] 
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第4节 | 混合（模型）法 


在第2章中我们曾将固定效应法和随机效应法统一到 
一个模型中。这是通过把时变自变量分解成个体内部分与 
个体间部分，然后用这两个部分一起拟合随机效应模型来实 
现的。个体间部分就是每个变量的个体均值 ( person-specific 
mean , 即个体内均值)。个体内部分即（个体各观察值）与个 
体均值的离差。 

现在我们将这种方法扩展到 logistic 回归 （Neuhaus & 
Kalbfleisch, 1998 )。 与在线性回归中一样，这种模型的魅力 
在于我们能够：（1)在模型中纳入非时变变量； （2) 进行比较 
固定效应和随机效应的检验； （3) 拟合更多类型的模型。 
(3) 的一个例子是 :与条 件似然法不同，混合法能够使用其他 
的连接函数，如 probit 和互补双对数函数。 

再一次使用 Stata 中的 xtlogit 命令，我对少女贫困问题 
这一数据拟合了随机效应模型，结果呈现在表 3. 6中。所有 
以 M 开头的变量名都是指个体均值。所有以 D 开头的变量 
名对应的都是相对于上述个体均值的离差。离差变量的回 
归系数从功能上讲与固定效应系数等价，因为估计时只利用 
了个体内的变异信息，从而控制了所有恒定变量。在第2章 
的线性混合模型中，离差变量的系数与最小二乘虚拟变量法 
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产生的完全一样。但在这里，离差变量的系数与表 3. 4中的 
条件似然法系数并不相等，尽管它们确实很相近。 


表 3. 6少女贫困数据的混合模型 



系数 

标准误 

P 

DMOTHER 

0. 594 

0. 158 

0 . 000 

DSPOUSE 

— 0. 807 

0. 179 

0 . 000 

DSCHOOL 

0. 275 

0. 113 

0. 015 

DHOURS 

一 0. 0210 

0 . 0032 

0 . 000 

MMOTHER 

1. 079 

0 . 181 

0 , 000 

MSPOUSE 

— 2. 146 

0 . 255 

0 . 000 

MSCHOOL 

— 1. 362 

0 . 202 

0 . 000 

MHOURS 

-0. 0468 

0 , 0058 

0 . 000 

BLACK 

0. 572 

0. 097 

0 . 000 

AGE 

— 0. 123 

0. 050 

0. 013 

YEAR2 

0 . 333 

0 . 101 

a 001 

YEARS 

0. 330 

0. 107 

0 . 002 

YEAR! 

0. 43 】 

0. 115 

0 . 000 

YEAR5 

0. 391 

0. 125 

0 . 002 

截距 

1.893 

0. 819 

0 . 021 


那些均值变量的系数本身并不是很有意思，引人注意的 
是它们(在量上）比对应的离差变量大多少。一个常规的随 
机效应模型(没有离析个体内与个体间成分时）内在地假定 
离差系数与均值系数相等。在混合模型中非常容易就能对 
这一假定进行检验，通过直接检验各对系数之间是否相等即 
可。表 3. 7清楚地表明有必要反对这一假设，这意味着固定 
效应模型在这里要比随机效应模型更好。在表 3. 7中，最重 
要的检验是联合检验，它检验的是四个离差系数同时都与对 
应的均值系数相等。 [14 」 
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表 3. 7对均值系数与离差系数是否相等的检验 



卡方值 (Chi-square) 

P 

MOTHER 

4. 16 

0. 041 

SPOUSE 

19.31 

0. ⑻0 

SCHOOL 

49. 90 

0. 000 

HOURS 

15. 70 

0. 000 

联合检验 (4 自由度） 

79. 10 

0. 000 


混合方法的另一个优点，在于它能够得到非时变自变量 
的系数估计。例如，表 3. 6中，黑人有显著更高的贫困风险， 
而第一次访问时年龄更大的女孩的贫困风险显著地低一些。 
不过，记住下面这点很重 要：不 像离差变量的系数 ， BLACK 
和 AGE 的系数并没有控制住未被观测的自变量。 

在第2章中，我们见识了混合线性模型能够扩展成为允 
许时变自变量带上随机系数的模型。这在混合 logit 模型中 
也是可能的，尽管估计此类模型在计算上非常精深。在 Stata 
中，带有随机系数的 logit 模型需要使用一个不同的 命令: 
xtmelogit (在 StatalO 中首先引进）。对这一少女贫困问题的 
例子，我估计了一个允许 DMOTHER 带有随机系数的混合 
模型。这一系数的估计均值为0.603,标准差（不是标准误) 
为 0.75 U 这一标准差95%的置信区间为 0. 272到 2. 075, 
由于这一置信区间并不包含0,因此，作为证据可以表明母亲 
身份对于贫困状况的影响在不同个人之间确实存在着变 
异性。 
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第5节 | 多分类反应变量的 

(固定效应）方法 


到目前为止，我们只考虑了二分反应变量的情况。现 
在，有一个分类反应变量 A ，它能够取两个以上的值。假设 
这些取值都是整数值，范围从1到/，巡标 （running index ) 为 
jo 令 A 。 = Prob (^ = j ) Q 接下来我们需要一个模型，以说 
明这些概率如何取决于预测变量&和^。 

我们先从因变量的这些类别是序次排列的情况开始。 
针对序次分类因变量，最常用的模型是累积 logit 模型，也被 
称为序次 logit 模型。这一模型的固定效应形式可以如此 
表述： 


log 



— p-a + 和 “ + yzi + % ， j = 1 ，…， J — 1 


[3.4] 


其中& = 是落人某一个类别 j 或更高类别的“累 

积”概率。不幸的是，条件最大似然法不能用于这种模型，因 
它不能为％参数提供“简化充分统计量 ” （reduced sufficient 
statistics )。 我们能做的是使用上一节讨论过的混合模型法， 
利用常规最大似然估计，配合稳健标准误，以调整各个体的 
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多次观察之间的独立性不足。 

作为示范，我们回到第2章中反社会行为的例子。在该 
数据集中，因变量 ANTI 是整数取值，并且取值范围为0到 
6,但在线性回归模型中被当做定量因变量对待。这里，我们 
采取一种更恰当的方式把 ANT1 当做 logistic 模型中的一个 
序次分类变量。 

与二分类因变量模型一样，本混合模型法的实现，同样 
是先计算每个预测变量的分个体均值，然后计算（各个观测 
值)相对于这些均值的离差。再将均值变量及离差变量都纳 
入累积 logit 模型中，作为预测变量。如果想得到具体单位系 
数，我们就得估计随机效应模型，但是很难找到可以对序次 
logit 模型进行这种估计的商业软件。无奈之下，我们只好进 
行常规最大似然估计，并釆用稳健标准误，以修正重复观察 
之间的相依问题。 

我是用 Stata 中的 ologit 命令完成上述任务的，结果在表 
3. 8中。这些结果与表 2. 8中利用混合线性模型法得到的极 
其相似。所有的 A 值都能让我们对每个系数得岀相同的结 
论。尽管在多数情况下并非如此，但上述系数及标准误已然 
非常相近。累积 bgh 模型的系数表示落人因变量中较高类 
别而非较低类别的对数发生比的变化量。与二分类回归模 
型一样，对这些系数取指数幂之后就能得到发生比。要想了 
解更多有关如何解释这些系数的细节，可以参看笔者的另一 
本书 (Allison，1999a)。 
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表 3. 8反社会行为的混合累积 logit 模型 

系数 稳健标准误 P 


DSELF 

— 0. 064 

0. 013 

0, 000 

DP0V 

0. 116 

0. 117 

0. 320 

MSELF 

— 0. 108 

0. 027 

0. 000 

MP0V 

0. 696 

0. 185 

0. 000 

BLACK 

0. 153 

0. 157 

0. 330 

HISPANIC 

一 0. 310 

0. 169 

0. 065 

CHILDAGE 

0. 083 

0. Ill 

0. 453 

MARRIED 

— 0. 189 

0. 163 

0. 247 

GENDER 

— 0. 598 

0. 128 

0‘ 000 

MOMAGE 

— 0. 017 

0. 029 

0. 557 

MOMWORK 

0. 190 

0. 146 

0. 195 

TIME_2 

0. 016 

0. 069 

0. 819 

TIME 3 

0. 167 

0, 077 

0.030 


两个离差变量 DSELF 和 DP 0 V 的系数可以当做固定效 
应系数来解释。因为这些系数只取决于个体内的历时变化， 
并且它们控制了所有恒定的预测变量。对这两个离差系数 
等于对应均值系数的原假设进行检验(利用 Stata 中的 test 
命令），发现自由度为2时卡方值为 9. 02,这在 0.01 水平上 
显著。 与在线性模型中一样 ，其 绝大部分原因源于 MPOV 
及 DPOV 的系数差异太大。这意味着即使通过稳健标准误 
修正了各观察之间的相依性,常规序次 logit 模型在这里仍不 
是合适的，至少对 P 0 V 变量来说不合适。在此，我们得将注 
意力集中在离差系数上，因为它们控制了所有非时变自 
变量。 

现在我们转到更复杂的情况，这里因变量各个类别之间 
并不存在序次关系。对于非序次分类变量使用最广的是多 
分类 logit 模型，也被称为广义 logit 模型。下面是这一模型 
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的固定效应 形式: 


log ( 


K 

P^j 


fJLij + H +a y 


••睿 ▲ / 1 

1 ^ J 


3. 


方程 3. 5 ①可以被看做一套联立的二分类 logistic 回归方程， 
每个方程都将因变量的某一个类别与最后一个类别进行比 
较。固定效应％在不同个体之间及不同反应值之间都可以 
变动，但不随时间变动。 

固定效应多分类 logit 模型像二分类 bgit 模型一样，可 
以为 a y 提供简化充分统计量，也即，为每个个体提供不同响 
应值的频次计数。原则上讲，这一模型可以通过在限定那些 
计数的条件下，采用条件最大似然法进行估汁 ( ChambeHam * 
1980)。不过没有现成的商业软件可以实现这一点。如果 
时变预测变量是定类的，那么模型就可以转变为对数线性 
模型并在相应的框架下进行估计 （ Conaway ， 1989 ； Dar - 
roch McCloud , 1986 ； Ken ward Jones , 1991 ； Tjur , 
1982)。 不过，建立一个那样的模型有一点复杂，这里暂 
不考虑该方案。 

另一种估计的方法是将多分类模型分解成为几个二分 
类模型，一个模型对应着一个特定类别与参照类之间的比较 
( Allison , 1999 a ； Begg Gray , 1984)。 然后，每个二分类模 

型都可以采用本章已经讨论过的条件 logistic 回归方法进行 
估计。尽管这一方法可以产生近似无偏的系数估计，但估计 
结果将因参照类的选择不同而存在差异。另外，缺乏各个变 


①原书为方程 3. 4,根据上下文，当为编辑错误。——译者注 
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量对因变量的作用的整体检验。 

如我们在累积 logit 模型中看到的一样，要估计带有固定 
效应的多分类 logit 模型，混合模型法是最容易实现的方法。 
作为示例，我们回到本章大部分地方都在使用的例子，该数 
据中有1151名十几岁的少女，她们被连续观察五年，每年一 
次。不过这一次，我们将使用一个新的反应变量 EMP - 
STAT ， 它有如下三个 类別： 

(1) 正处于就业 状态； 

(2) 失业（下岗或正在找工 作）； 

(3) 退出劳动力市场(正在上学、在家料理家务等等)。 

至于自变量，我们将使用 MOTHER (目前至少有一个孩 
子）， SPOUSE (目前与丈夫同住），目前的年龄 AGE ， 以及 
BLACK (与非黑人相对）。前3个变量为时变变量。 

第一步是计算各个时变变量分个体的均值以及相对于 
这些均值的离差。由于有241条记录的反应变量 EMP - 
STAT 为缺失值，因此在删除了这些带有缺失值的记录之后 
再计算均值非常重要。 

为了在 Stata 中估计多分类 logit 模型，我使用的是 
mlo gl t 命令，并配以稳健标准误，来修正各个+体多次重复 
观察之间的相依问题。 

结果呈现在表 3. 9的前两列数字中。从中可以看到两 
个二分类回归方程，每一个都将 EMPSTAT 中的一个类别与 
参照类——类别 1( 处于就业中)——进行比较。这里的回归 
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系数都是在假定所有观测彼此独立的条件下的常规最大似 
然估计，不过标准误却都修正了相依问题。需要记住的是, 
这些系数都是总体均值系数而非具体单位系数。 

通过关注离差变量，我们可以看到成为母亲将增加失业 
或退出劳动力市场的发生比。与丈夫居住将提高失业(相对 
于就业）的发生比，但会减小退出劳动力市场（相对于就业) 
的发生比。当少女年龄变大时，她们将稍微不那么容易失 
业，并且将相当地不那么容易退岀劳动力市场。我还对每个 
离差变量系数是否等于对应的均值变量系数进行了检验，因 
此也就检验了固定效应模型与常规 logistic 回归模型是否等 
价。对于这两个二分回归方程，卡方检验都高度显著。 

在表 3.9 的最后两列中，我们可•以看到另一套多分类 
logit 模型估计结果，这是通过 Stata 的 xtlogit 命令估计两个 
分开的随机效应模型得到的。在第一个模型（失业相对于在 
职）中，所有“退出劳动力市场”的记录都被丢掉了。而第二 
个模型(退岀劳动力市场相对于在职)中，所有处于“失业”类 
别的记录都被排除在外。比较随机效应估计值和 GEE 估计 
值，可以发现所有系数的符号和显著性水平差不多都相同。 
不过，随机效应估计结果在大小上普遍要大一些，因为它们 
是具体单位的而非总体平均的。 
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第6节 | 总结 
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第2章针对线性模型的所有固定效应方法都可以扩展 
应用到定类因变量上。基本要旨是一样的。固定效应方法 
能够控制所有未被观测的非时变变量的潜在干扰作用。不 
过在另一方面，相对于其他方法，固定效应方法趋向于具有 
较低的效率，因为个体间的变异未被考虑。当然，对于定类 
因变量，需要使用几个略有不同的估计程序。 

本章的主要焦点在于二分类反应变量的回归模型。当 
每个个体恰好都只被观察两次时，固定效应 logistic 模型可 
以用常规 logistic 回归程序，通过条件最大似然法进行估计。 
这一方法需要如下几个步 骤:放 弃所有在两次观察中因变量 
取值相同的案例，将所有时变自变量都重新编码为差分值， 
然后对两个反应变量之一拟合常规二分类 logistic 回归。 

当每个个体的因变量仍然为二分变量，但都有两个以上 
的观察记录时，需要一种不同的数据结构，要求每个人的每 
一次回应都有一条单独的记录。但是，由于“简化充分统计 
量问题”，我们不能简单地估计含有标识的每个个体的虚拟 
变量的常规 logistic 回归。这种回归产生的估计系数将偏离 
0,尤其是当每个个体的观察数很小时。解决之道在于使用 
条件最大似然法将固定效应移岀似然方程。在 Stata 中，这 
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可以通过 xtlogit 或 clogit 命令来完成。 

很多研究者使用 GEE 估计或者随机效应 logistic 回归， 
而不是固定效应 logistic 回归，前两者都可以通过 xtlogit 命 
令进行。与固定效应方法相比，这两种方法都没有对未被测 
量的非时变解释变量进行任何控制。和固定效应一样，随机 
效应估计产生“具体单位”系数而不是“总体平均”系数。后 
者一般都会因为未被观测的异质性而逐渐向0消退变小。 

固定效应和随机效应方法可以通过估计一个随机效应 
模型的方式综合成混合模型，估计前将时变预测变量分解为 
个体均值与相对这些均值的离差，然后再估计一个随机效应 
模型。如我们在第2章看到的一样，混合模型允许我们在其 
中纳人非时变变量，并且提供了一个比较固定效应模型和随 
机效应模型的简单检验。 

至于含有两个以上类别的反应变量，在商业软件中通常 
都无法对固定效应 logistic 回归进行条件最大似然估计。退 
而求其次，不管是针对序次因变量还是名义因变量，目前最 
好的办法还是使用混合模型法，并利用稳健标准误修正（各 
观察记录间的)相依问题。 
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我们的因变量经常会是某种 计数: 小孩数、过去一年的 
性伴侣数、家里的电脑数量、过去五年被拘捕的次数，等等。 
很多研究者把计数变量当做连续测量变量，并使用一般最小 
二乘回归进行分析。这样做可能不恰当，原因有一些。例 
如，计数变量必定是离散型的，并且取值不能小于 0。 它们的 
分布通常都是高度偏态的。 

一种通常更好的办法是估计泊松回归模型 （poisson 
regression model ) 或负二项回归模型 （negative binomial 
regression model ) ，这两种方法专门被设计用来对计数变量 
建模 ( Long ， 1997)。在对它们进行简略介绍后，我们将考察 
如何扩展这些计数变量模型，以处理每个个体被观察多期的 
数据，并带上固定效应以控制所有非时变预测变量。 [15] 在此 
过程中，我们将再次遇到上一章讨论二分类结果变量模型时 
岀现的很多问题。不过，困扰 logistic 回归的那些估计问题 
在计数变量模型中没有那么严重。 

我们先来考虑一下将会贯穿本章的例子。这一数据包 
含346个制造业公司，记录了从1975年到1979年每个公司 
每年获得的专利数量。有关这一数据的已有分析可以在霍 
尔、格瑞里奇及豪斯曼的著作 （ Hall、Grilliches Hausman , 
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1986) 以及卡梅伦和特里维迪的著作 （Cameron & Trivedi ， 
1998) 中找到。原始数据集中每个公司有一 条记录 ，每条记 
录中变量 PAT 75 到 PAT 79, 包含这五年各年的专利数量。 
作为预测变量，我们有1970年到1979年每个公司研究与发 
展开支的对数值 （ LOGR 70 到 LOGR 79)。 同时也包括两个 
非时变 变量: LOGSIZE 是1972年公司账面价值的 对数; SCI - 
ENCE 是虚拟变量，如果公司属于科技行业则为1，不属于科 
技行业则为0。 
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第1节 I 每个个体被观察两期的 

计数数据泊松模型 


和在前面几章看到的一样，当每个个体只有两期观察数 
据时.线性及 logistic 固定效应分析可以通过常规软件用简 
化方法完成。对于计数数据，这同样可行。事实上，固定效 
应泊松回归模型可以采用用于分组数据的普通 logistic 回归 
程序进行估计。 

为了用专利数据说明这一点，我们将忽略中间的年份， 
而只关注1975年和1979年的记录。令^表示公司/在 
1975年的专利数，乂 2 表示在1979年的专利数。这两个变量 
都被假定服从期望值为 L 的泊松分布。这样，％ = r 的概率 
由如下方程 给定： 

Pr (: y " = r )— — ， r =0， l ，2， … 「4. 1] 

泊松分布可能是所有分布中最简单的适合计数数据的 
概率分布。它可以从满足如下假定的随机过程模型中推导 
出来：（1)事件(在这里是专利）不能同时发生，并且 （2) 事件 
之间彼此独立 （Cameron Trivedi , 1998)。所谓彼此独立， 

意思是一个事件的发生并不会提高或降低将来事件的发生 
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概率。 

注意，我们的模型并没有假定整个样本都服从某一单一 
泊松分布。相反，每个公司的专利数都来源于不同的泊松分 
布,分布的期望值在不同公司及不同时期都可以不同。泊 
松分布的独特性在于它的均值和方差 相等： 

E ( y tt ) = var (^) = A , ( [4. 2] 

不幸的是，我们将看到，这一性质有时也会导致一种被 
称为过离散 ( overdispersion ) 的问题，这种问题会严重危害泊 
松回归模型的估计。 

接下来，我们令作为自变量的对数线性函数 

log A ；, = fx t px n 4 - JZi + a t [4. 3] 

与前面各章一样，^表示时变预测变量，则表示非时 
变预测变量，表示未被观察的“固定效应”。和以前一样， 
把&当做一套固定的常数，等价于将它们当做可以与^存在 
任意的不受限的相关的随机变量。向量 A 包括当前年份〖 
及此前五年每一年的研究与发展开支。 

我们的目标是估计出方程 4. 3中的参数。为了实现这 
一点，需要使用条件最大似然法，即第3章中用来估计固定 
效应 logistic 模型的方法。考虑到力的分布以两个时期汇总 
的事件总数(表达为叫 = W + M 2 ) 为条件，因此它可以表示 
为 y t 2 \ zv 厂 B ( p t ， %)。也就是说，在满足总数量为叫的前 
提下，1979年的专利数: y t 2 服从参数为久和的二项分布， 
其中： 
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经过一些运算，得 到： 

log(i ^ p )= ("2 —" 1 ) +/?( X ,2 — X ,1 ) [4. 5] 

这样，我们就已将泊松回归模型转变为自变量为原始自 
变量差分值的 logistic 回归模型。注意，和以往的情况一样， 
^和都被从方程 4.5 中消除掉了。 

为了在 Stata 中实现这一条件法，我使用了 blogit 命令，它 
可以对分组二项数据 (grouped binomial data ) 进行最大似然估 
计 (ML estimation ) 0 blogit 命令要求因变量包括两个部分 :“事 
件” ( events ) 数以及“试验” （ trials ) 数。通过提交下面的命令， 
我首先估计了一个不带任何自变量(仅含截距项)的模型。 

blogit pat79 total 


其中 PAT 79 是1979年的专利数， TOTAL 等于 PAT 75 
+ PAT 79。 估计得到的截距为一 0. 1386,对应的标准误为 
0.0129,所得 z 统计量为一 10. 68。这告诉了我们什么呢？如 
果用叫表示年份1的平均专利数，而 m 2 为年份2的平均专 
利数的话，这一截距其实就是 log 如果这两个年份 

的专利数恰好一样，那截距就会等于0。上述结果为负，表明平 
均专利数随着时间推延在下降。更具体的说，如果我们 计算： 

100[ exp ( — 0. 1386) — 1] = — 12. 9% 

就可以得到平均值从1975年到1979年下降的比例。另外， 
由于截距对应的 z 统计量如此之大，我们可以拒绝认为这两 



第 4 章计数变置的固定效应模型 


73 


个年份的均值相等的虚无假设。 

事实上，这个 Z 统计量太大了。由于所谓的过离散问 
题，基于泊松分布估计所得的常规标准误只是真实标准误的 
一个低估值。在后文我们将更详细地讨论离散问题。在那 
以前，我们可以在 Stata 中使用刀切法或者自助法选项，以获 
得稍微好一些的标准误估计。这些计算密集型方法利用数 
据集的众多子样本或再抽样样本反复进行分析，以估计标准 
误(更详细的解释可以参考 Mooney & Duval , 1993)。这里， 
刀切法标准误为 0. 0371，产生的 z 统计量为 一 3. 74。自助标 
准误为 0. 0358，对应 z 统计量为 一 3. 78。尽管这些 z 统计量 
比原来的常规 z 统计量要小很多，但很显然，它们仍然是高 
度显著的。 

下一步将纳入自变量，它们是研究与发展经费支出对数 
的差分值。为了与以往对这一数据的分析保持一致,我们的 
分析目标是同时纳入“当前”的研究与发展开支和此前五年 
每年开支的时滞值。为此，我定义了如下 变量： 

RD 0 = LOGR 79 — LOGR 75 
RD 1 = LOGR 78 - LOGR 74 
RD 2 = LOGR 77 - LOGR 73 
RD 3 = LOGR 76 — LOGR 72 
RD 4 = LOGR 75 — LOGR 71 
RD 5 = LOGR 74 - LOGR 70 


RD 0 是计算专利数那两年的差分值， RD 1 到 RD 5 是1 
到5年的时滞值的差分值。这6个变量都被纳人分组 
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logistic 回归模型作为解释变量，结果呈现在表 4. 1 的模型 
1中。 

检查这些参数的估计值及相应的统计量，可以看到 
RD 0, 研究与发展支出的同期测量值对专利数有着高度显著 
的影响，系数为 0. 5214。解释这一系数时，需留意因变量（专 
利数的期望值）和自变量（研究与发展开支）都被取了对数 
(见方程 4. 3)。因为两个变量都被取了对数，我们可以说，在 
控制了研究与发展经费的时滞测量后，研究发展经费1%的 
增长与同一年期望专利数0.52%的增长有关。开支的时滞 
测量值的影响比这要小得多。 

这里我们仍需要使用更为稳健的标准误估计以处理过 
离散问题。呈现在表 4. 1中的自助标准误达到常规标准误 
的两倍。使用自助标准误后，我们发现只有 RD 0 仍保持统 
计显著，而且即使是这个变量，它的 z 统计量也大大地变 
小了。 


表 4. 1专利数据的条件泊松估计一两个时期 




模型 1 



模型 2 



系数 

常规 

标准误 

自助 

标准误 

系数 

常规 

标准误 

自助 

标准误 

RDO 

0. 521 

0. 084 ** 

0. 207* 

0. 533 

0. 085 ” 

0. 209* 

RD1 

— 0. 207 

0. 113 

0. 227 

_ 0. 192 

0. 113 

0. 256 

RD2 

— 0. 118 

0. 111 

0. 277 

-0. 137 

0. 111 

0. 341 

RD3 

0. 060 

0. 096 

0. 263 

0. 062 

0. 096 

0. 31-1 

RDl 

0. 181 

0. 090* 

0. 244 

0. 183 

o. 09 r 

0. 209 

RD5 

一 0. 093 

0. 069 

0. 118 

-0. 100 

0. 069 

0. 167 

SCIENCE 




0. 023 

0. 028 

0. 089 

LCX.S1ZE 




0.017 

0. 008 * 

0. 017 

截距 

一 0. 222 

0. 018” 

0. 052** 

— 0. 347 

0. 062” 

0. 138* 


注： * 0. 01 </>< 0. 05， “ p <0. 01 
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和我们前面的固定效应模型一样，表 4. 1中的估计也都 
控制住了所有在不同时期保持稳定不变的变量。尽管系数 
解释起来不那么直截了当，我们仍可以把不随时间变化而变 
化的自变量放入模型。表 4. 1中的模型2含有虚拟变量 
SCIENCE (是否属于科技行业）以及 LOGSIZE (公司账面价 
值）。当我们使用自助标准误时，这两个变量都没有达到统 
计显著。它们的系数可以解释为与时间的交互作用的大小。 
与所有的交互项一样，这些系数可以采用两种不同的解释方 
式。例如， SCIENCE 的系数 0. 0275可以表示 SCIENCE 在 
1979年的系数与在1975年的系数的差异。它在统计上高度 
不显著，说明这一变量在这两个年份有着相等的作用。或 
者，我们可以将 0. 0275解释为时间对属于科技行业的公司 
的影响的增加量，相对于那些不属于科技行业的公司。当 
然，因为它远没有达到统计显著的水平，我们可以得出如下 
结论 :这两 种不同行业的公司的专利数的变化率实质上是一 
样的。类似的解释也可对 LOGSIZE 作出。 
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第2节 | 多期数据泊松模型 


当个体在两个以上的时期得到观察时，固定效应泊松模 
型的估计需要采取不同的方法。现在我们继续上文的例子， 
分析1975年到1979年每一年的专利数一^用&表示。和 
前面一样，我们假定每个％都来自方程 4. 1给定的期望值为 
A , 的泊松分布，令 A ,, 像方程 4. 3所给定的那样，是自变量的 
对数线性函数。 

有两种方法对这一模型进行估计，条件最大似然估计和 
无条件最大似然估计。在条件最大似然估计中，似然函数建 
立在每个个体(不同时期）的专利数的总和一定的条件上，它 
能消除固定效应 (a )。 所得条件似然值 (Cameron & Trivedi ， 
1998) 与下面的方程成 比例： 


y-r 门 / exp(", + (h: 

丄，丄丄,丄 i 


[4.6] 


在 Stata 中，这一似然值可用 xtpoisson 命令来进行最大 
化(这一命令同样可估计随机效应及总体平均模型）。该命 
令要求数据集已被重构为每个公司每一年都有一条记录的 
形式，并且有一个共同的 ID 变量将来自同一公司的5条记 
录连在一起 [16] 。新数据集有来自346个公司的1730条记 
录。表 4. 2展示了样本前4个公司的20条记录。 
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和在两期数据情况下一样，我们的回归模型中包括当年 
的研究发展经费及此前五年的经费。模型也纳入了与五个年 
份中的四个对应的年份虚拟变量组(第一年被作为参照类）。 
表 4. 3中的结果与我们表 4. 1中用五年中两个年份数据得到 
的相似。即当年的研究发展经费支出 ( RDO ) 有很强的作用，而 
时滞值影响要弱得多 ( RD 1 到 RD 5)。 TIME 系数 表明: 在这五 
年期间专利数有显著的下降趋势。请注 意：固 定效应模型没 
有报告截距信息，因为截距项被从条件似然函数中消除了。 

在该表中，分别用常规方法及自助法对固定效应（条件 
似然法)标准误进行了估计。 [17] 和两期分析一样，自助标准 
误要比常规标准误大得多，多数情况下前者都接近后者的两 
倍。原因还是泊松回归中非常常见的过离散问题。大体上 
讲，过离散意味着事件计数的实际变异要比基于某一泊松分 
布的期望变异多。这是经常发生的，因为回归模型通常难以 
囊括解释这些计数变异的所有原因。不过，由于我们估计的 
是固定效应模型，已经控制住了公司间在专利数上的所有变 
异。因此，能够引发过离散问题的被忽略变量只能是那些随 
着时间变化在公司内有所变动的变量。在含泊松回归的某 
些软件(如 SAS ) 中，你可以得到某种被称为偏差的统计量， 
它能够直接测量过离散的程度。但 Stata 不为常规泊松回归 
报告偏差统计量，因此使用自助标准误或刀切标准误以避免 
潜在错误总是一种好办法。 

为了进行比较，表 4. 3同时报告了使用 xtpiosson 估计的 
另外两种模型，随机效应模型和总体均值模型（由广义估计 
方程或 GEE 估计所得）。与固定效应模型一样，随机效应模 
型也能用方程 4. 1和方程 4. 3描述，只是其中的被假定为 
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具有特定概率分布的随机变量，并且和 A 及 A 相互独立。这 
一独立假定，意味着随机效应模型没有控制未被观察的协变 
因素。 

Stata 中的默认设置假定 a 服从对数伽马分布，不过也能 
将其设定为正态分布。而在总体均值模型中，并没有假定泊 
松回归方程中还存在一个干扰项，而只是允许每个公司的各 
次观察之间存在相关。 [18] 这种总体均值模型是通过 GEE 方 
法进行估计的，如在 logistic 模型中一样，这种方法是一种迭 
代广义最小二乘法。随机效应及 GEE 估计都很容易受过离 
散问题影响•因此常规标准误是有偏的。针对随机效应模 
型，我报告了自助标准误。对于 GEE 模型，我报告了更容易 
计算的稳健标准误，但 xtpoisson 命令中无法为随机效应及 
固定效应模型提供这一标准误。 


表 4.3 专利数据的泊松回归估计——5个时期 


固定效应 随机效应 GEE 估计 




系 

数 

常规 

标准误 

自助 

标准误 

系 

数 

自助 

标准误 

系 

数 

稳健 

标准误 

RDO 


0. 

322 

0. 

046" 

0. 

084 ^ 

0. 

477 

0. 

072 

0. 

303 

0. 

053 ^ 

RD1 


— 0. 

087 

0. 

049 

0. 

087 

-0. 

008 

0. 

058 

0. 

049 

()■ 

056 

RD2 


0. 

079 

0. 

045 

0. 

064 

0. 

136 

0. 

061* 

0. 

167 

0. 

051^ 

RD3 


0. 

001 

0. 

041 

0. 

072 

0. 

059 

()■ 

090 

0. 

085 

0. 062 

Rm 


— 0 . 

005 

0. 

038 

0. 

065 

0. 

028 

0. 

051 

0. 

050 

0. 

042 

RD5 


0. 

003 

0. 

032 

0. 

063 

0. 

082 

0. 

067 

0. 

038 

0. 

CH3 

TIME 

2 

-o. 

(M3 

0. 

013” 

0. 

017* 

-0. 

047 

0. 

016 h 

— 0, 

048 

0. 

017 ** 

TIME 

3 

— 0, 

(MO 

0 . 

013“ 

0. 

026 

一 0. 

056 

0, 

024 * 

— 0. 

052 

0. 

026 * 

TIME 

■1 

-o. 

157 

0 . 

014 ” 

0. 

036 ** 

.一 0. 

19() 

0. 

041*， 

-0. 

178 

0. 

0.W 

TIME 

r> 

-o. 

198 

0. 

015“ 

(J. 

03 ； r* 

一 0. 

253 

0. 

038“ 

-0. 

231 

0. 

041 ^ 

截距 








- 1 . 

403 

0. 

081 ^ 

1. 

828 

0. 

128** 


注： *0.01 </>< 0,05. ** p <0. 01。 
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与我们在此前的比较中看到的一样，固定效应估计的标 
准误要比随机效应及 GEE 模型的大。一如平常，这是因为 
固定效应只使用了公司内的变异而完全放弃了公司间变异 
的原因。事实上，五年期间每年的专利数为0的公司根本就 
被排除在条件似然函数之外。这一数据集中了 22个这样的 
公司。从好的方面看，固定效应估计控制了所有稳定的公司 
属性,而随机效应及 GEE 估计只控制了被明确纳人模型的 
那些公司层面的性质(在这几个模型中没有纳入一个这样的 
变量）。就本分析而言，三种方法的结果唯一的主要区别在 
于: 随机效应及 GEE 模型结果显示 RD 2 有一定作用，而固定 
效应模型中并不存在此类证据。 

固定效应泊松回归模型也可以使用无条件最大似然法 
进行估计。这是通过估计一个含有标识所有公司（少一个) 
的虚拟变量组的常规泊松模型来实现的。在讨论 logistic 回 
归模型的第3章中，我们已经看到条件最大似然估计和无条 
件最大似然估计产生了不同的估计结果。而且，无条件最大 
似然估计是错误的——他们倾向于产生太大的系数估计。 
不过，在泊松回归模型中，条件及非条件最大似然估计总是 
产生相同的结果 (Cameron Trivedi ， 1998)。因此，选择哪 
一个纯粹是看哪个计算起来更方便。在 Stata 中，使用无条 
件法分析本专利数据所花的时间要长得多，因为需要估计超 
过300个虚拟变量的系数。不过，很多软件包(如 SAS ) 不含 
进行条件泊松回归的程序，在这种情况下就只好选择无条件 
最大似然估计了。 

表 4. 3中的自变量都是时变变量。我们是否也能在固 
定效应模型中纳入非时变变量呢？在上文中，当每个公司只 
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有两条记录时，我们在用于泊松模型条件估计的 logistic 模 
型中纳人了两个非时变变量。而这些变量的系数被解释为 
与时间的交互作用。但是此刻，非时变变量不能被直接纳人 
模型。不过，我们可以设置非时变变量与时变变量，包括时 
间本身之间的交互项。例如，有人可能假定研究发展经费支 
出对科技公司专利数的影响要比在非科技公司的大。表 4. 4 
报告的是一个纳人了 SQENCE 和 RD 0 乘积项的模型的结 
果。可以看到，没有必要（甚至根本不能）纳入 SCIENCE 的 
主效应。简单起见，这一模型中删除了在表 4. 3 中不显著的 
研究发展开支的时滞效应。 


表 4. 4含有非时变协变置的条件泊松估计 


固定效应 


系数 

常规标准误 

自助标准误 

RD0 

0. 375 

0. 048** 

0. 078“ 

RDO* SCIENCE 

— 0. 204 

0. 067** 

0. 188 

TIME_2 

一 0_ 034 

0. 013” 

0. 014* 

TIME_3 

一 0. 034 

0. 013" 

0. 020 

TIME_4 

— 0. 151 

0.014“ 

0- (m ” 

TIME_5 

-0. 189 

0. 015** 

0. 035** 

注： M), 01 <0. 05, 

^ <0.01 

0 



从表 4. 4 中，我们可以看到，在使用常规标准误时， RD 0 
与虚拟变量 SCIENCE 之间的交互作用显著，而在自助标准 
误下，这一交互作用并不显著。但不管是在哪种情况下，交 
互项的作用都与假设——研究发展经费对专利数的影响在 
科技公司要比非科技公司大——相反。更具体地说，研究发 
展经费在非科技公司的影响是 RD 0 的主效应，即 0. 375。 而 
在科技公司，其作用是 0 . 375 — 0. 204 = 0. 171 ， 等于主效应 
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加上交互作用。 

现在我们检验一下专利数的变化速率在科技行业与非 
科技行业是否存在差异。对于表 4. 5中的模型，我限定时间 
为线性作用，然后纳入一个 SCIENCE 与 TIME 的交互作用 
项。表 4. 5中的结果未能证明科技公司和非科技公司的专 
利数在变化速率上有所不同。交互项系数还远没有达到统 
计显著的水平(不管是用常规标准误还是自助标准误），其大 
小也仅仅只有时间主效应的2%。 



表 4. 5 

条件泊松估计 —— 

-含与时间的交互作用 





固定效应 




系数 

常规标准误 

自助标准误 

RDO 


0. 276 

0. 039 

0. 075 

TIME 


— 0. 049 

0. 005 

0. 010 

SCIENCE 

^TIME 

— 0, 001 

0. 006 

0. 016 
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第3节 | 计数数据的固定效应 

负二项横型 


如我们刚刚已经看到的，固定效应泊松回归模型很容易 
受到过离散效应的影响。这多少有些出人意料，因为固定效 
应模型已经通过 a , 参数允许不同个体之间存在未被观测到 
的异质性。但是这种异质性被假定不随时间变化而变化，然 
后仍然可能存在着仅仅属于某些特定时点的未被观测到的 
异质性，正是它们导致了观察到的过离散。正如我们所见 
的.在过离散情况下，可以通过使用自助法及刀切法对标准 
误进行矫正。尽管这种方法并不坏，但通过直接将过离散问 
题建构到事件计数模型中，我们可能做得更好。 

为了模拟这种过离散，我们假定每个公司每个时点的专 
利数来自某一个负二项分布。负二项分布是一般化的泊松 
分布，通过一个额外的参数，它允许过离散存在。负二项模 
型的吸引之处在于，它所估计的系数更加有效（抽样变异更 
小），而且其标准误及统计检验比诸如自助法及刀切法之类 
的经验的、事后的调整更精确。 

不过.负二项回归模型公式化的方式不止一种。这里使 
用的是被卡梅伦和特里维迪 (Cameron & Trivedi ， 1989) 称做 
NB 2 的模型，其中九的概率质量函数 ( pmf ) 是这样定 义的： 
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p r(v 二 r) = _..工^ 十丄 ) - 

Friy, r(0)r(r+l) [x.+d) (A" +沒） 

[4. 7] 

在这一方程中，是％,的期望值 d 是过离散参数， 
IX •) 是伽马函数。当(9—00,这一分布向泊松分布收敛。如 
在泊松模型中一样，我们假定％的期望值可以被一个对数线 
性方程 描述： 

logA ( , = +/?了" + y 之，十山 [4.8] 

其中 a, 作为固定效应处理。在控制 a, 的条件下（<：011(11- 
tional on a，） ，每个个体(如本例题中的一个公司）的几个计数值 
被假定彼此独立，尽管在无条件状况下，它们可能互相依赖。 

这一模型如何能被估计出来呢？不像泊松模型，在这里 
不能用条件似然法。用技术术语来说，每个个体的计数总和 
并不是％的“完全充分统计量” (complete sufficient statistic) ，因 
此以总数为条件 （conditioning on the total counts) 并不能将印 
从似然方程中消除掉。豪斯曼、霍尔及格瑞里奇 （Hausman、 
Hail & Griliches, 1984) 提出了一种非常不同的固定效应负二 
项回归模型，他们为该模型推导出一种条件最大似然估计量。 
事实上，他们的方法已经被吸收进 Stata 的 xtnbreg 命令中。 
不过埃里森和沃特曼 (Allison & Waterman, 2002) 已表明这种 
方法并非真正的固定效应回归模型，它事实上并没有控制所 
有的固定自变量，下面我们就会看到这一点。 

相反，我们将进行无条件最大似然估计，通过估计纳入 
了标识所有个体（除其中一个外）的虚拟变量的负二项回归 
模型的方式。在 Stata 中，这可以通过 nbreg 命令实现。 [19] 
这一模型的运算非常慢，因为有大量公司虚拟变量的系数需 
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要估计。为了稍微提高速度，我忽略掉22个在此五年中没 
有任何专利的公司。这些公司对似然函数没有任何贡献.并 
且其虚拟变量系数不收敛。 

表 4. 6中的结果应该与表 1.3 中固定效应泊松回归的结 
果进行比较。这里没有将与各个公司对应的虚拟变量的系数 
呈现岀来 3 显然，负二项回归模型的系数与泊松模型的结果 
非常相似。而钍，负二项模型的标准误及检验统计量与自助 
标准误泊松模型的相近。标签为 Alpha 的估计参数是离散性 
的一种测量。事实上，它是的估计，其中6为方程 4. 7中 
的那个参数。很明显阿尔法大于()，系数取值达到其对应标准 
误取值的10多倍，这意味着存在显著的过离散。 


表 4. 6固定效应负二项模型的无条件估计 




固定效应模型 

系数 

常规标准误 

梯度外积 (OPG ) 标准误 

RD0 

0. 371 ** 

0. ()63 

0. 072 

RD1 

一 0. 083 

0. 068 

0. 073 

RD2 

0. 064 

0. 064 

0. 075 

RD3 

0. 014 

0. 060 

0. 071 

RLM 

0. 034 

0. 056 

0. 060 

RD5 

0, 002 

0. 046 

0. 052 

TIME.2 

-0. 049* 

0. 023 

0. 027 

TIME.3 

一 0. 051* 

0. 023 

0. 029 

TIME_1 

— 0. 159“ 

0. 024 

0. 028 

TIME_5 

— 0. 224” 

0. 025 

0. 028 

截距 

3. 677 

0. 118 

0. 101 

Alpha 

0. 020 ” 

0. 002 

0. 002 


注： *0. 01<P<0. 05, 0. 01 o 

Stata 还报告了 Alpha = 0 这一虚无假设的似然比卡方 


统计量，在这里它的取值为 499. 54,对应自由度为1，无论以 
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什么标准来说，这都是统计显著的。这一统计量是通过将负 
二项模型的对数似然值与泊松模型对数似然值的差值乘以2 
计算得到的。这样做可行是因为 :泊松 模型是负二项模型在 
Alpha 值等于0时的特例。这一检验意味着我们应该拒绝泊 
松模型，选择负二项模型。 

显然，负二项模型对这一数据的拟合要比泊松模型好得 
多。与泊松模型(条件估计与无条件估计必然相同）不同，无 
条件负二项估计无法保证能够抵抗来自由伴随性参数问题 
(在第3章 logisdc 模型中讨论过）造成的偏差。通过使用蒙 
特卡罗模拟 (Monte Carlo simulation ) ，埃里森和沃特曼 （ A 1 H - 
son & Waterman , 2002) 发现： 无条件负二项回归估计量没 
有呈现任何相对于伴随性参数的真正偏差。他们同样 表明： 
负二项估计量有着比泊松估计量确实要小的标准误。不过， 
无条件的负二项估计的确有一个 缺陷: 其置信区间倾向于太 
小(尽管总体差值远非泊松模型那么严重）。在很多情况下， 
名义的95%的置信区间只有85%的机会覆盖真值。这一问 
题可以通过对过离散产生的标准误进行调整而轻松地解决， 
调整所使用的是一个基于离差统计量的公式。在模拟中经 
此调整以后，几乎在所有情况下，实际覆盖率都已非常接近 
名义的95%的置信区间。尽管 Stata 不报告这一矫正所需的 
离差统计，我发现：由 vce ( opg ) 选项产生的标准误与由离差 
矫正产生的标准误一样。这些标准误呈现在表 4. 6的第 
三列。 

对于专利数据的例子来说，负二项估计的运算时间还能 
够容忍，但对于非常庞大的数据集来说就会是很大的问题， 
届时将有大量虚拟变量的系数需要估计。 G r eene (2001) 给 
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出 r 此种运算难题如何迅速得到解决的办法，但是需要对现 
有 Stata 计算法则进行调整。 

在前面，我曾提到 Stata 的 xtnbreg 命令下的条件负二项 
法并非真正的固定效应法。表17为这一事实提供了说明 3 
这些估计结果是用 xmbreg 命令及固定效应选项产生的。在 
模型1中我们只纳入了时变预测变量，结果与我们在 
表 4. 6中看到的非常相似。但我们得到了截距项的估计值- 
这本该已经在条件似然函数中消除了。模型2包括两个非时 
变自 变量: SCIENCE 和 LOGSIZE 。 如果条件似然法真的控制 
了所有非时变变量，那我们应该无法纳人这些变量，因为它们 
是冗余的。另外，我们发现 LOGSIZE 有高度显著的系数，而 
RDO 的作用因为 SCIENCE 、 LOGSIZE 的纳入而发生变化。这 
些对于真正的固定效应估计量来说都是不合常理的。 


表 4. 7 Stata “固定效应”负二项模型的估计结果 



模型 1 


模型 2 


RDO 

0, 319” 

0. 067 

0. 273” 

0.071 

RD1 

-0. 080 

0. 077 

— 0.098 

0.077 

RD2 

0. 056 

0. 071 

0. 032 

0.071 

RD3 

-0. 013 

0. 066 

— 0. 020 

0. 066 

RD4 

0.035 

0. 062 

0.016 

0. 063 

RD5 

0. 009 

0.052 

-0. 010 

0. 053 

TIME_2 

-o. 042 

0. 025 

— 0_ 038“ 

0. 024 

TIME 一 3 

-0.049 

0. 025 

— 0. 040** 

0. 025 

TIME 一 4 

—0. 161 

0. 026 

-0. 144 ## 

0. 026 

TIME 一 5 

— 0. 215 

0. 026 

-0. 196“ 

0. 027 

SCIENCE 



0. 018 

0. 198 

LOGSIZE 



0. 207 ” 

0. 078 

截距 

2. 424“ 

0. 175 

1.661“ 

0. 343 


注： " p <0.01。 
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第4节 | 混合(模型）法 


如在前文看到的一样，有可能将固定效应与随机效应方 
法结合起来，从而获得各自的一些优点。在这一框架内•我 
们可以进行统计检验，以比较固定效应模型和随机效应模 
型，还可以对不随时间变化而变化的变量的影响进行估计。 
一如从前，第一步是为各个体计算每个时变自变量的均值， 
然后计算相对于这些均值的离差值。接下来的步骤是运行 
一个同时将离差变量和均值变量作为自变量的回归模型。 
在这里，我们将估计一个负二项回归模型，因为它们不那么 
容易犯过离散问题。为了得到正确的标准误，所用的估计方 
法是否能允许各个个体的多次观察之间存在相依性将会非 
常重要。随机效应模型和总体均值 （ GEE ) 模型都能做到这 
一点。[ 20] 

利用 Stata 的 xtnbreg 命令，我把随机效应模型和 GEE 
(总体均值)模型都估计出来了，结果呈现在表 4. 8中。对于 
GEE 模型，我估计的是默认的“可交换”模型，这种模型假定 
同一个公司所有年份之间的相关相等，这使得其在本质上与 
随机效应模型等价。所有以字母 D 开头的变量名代表的是 
离差变量，而以 M 开头的变量代表分企业的均值。 




第 4 章计数变量的固定效应模型 


89 


表 4. 8负二项回归的混合模型估计 


随机效应 广义估计方程 (GEE) 


DRD0 

0. 322 ** 

0. 071 

0. 410 〜 

0. 120 

DRD1 

— 0. 057 

0. 076 

— 0. 129 

0. 120 

DRD2 

0. 081 

0. 068 

0, 056 

0.082 

DRD3 

一 0. 006 

0.064 

_ 0. 012 

0.095 

DRD4 

0. 011 

0. 059 

0. 007 

0. 099 

DRD5 

0. 019 

0. 050 

— 0. 062 

0. 088 

MRD0 

— 0. 336 

0. 697 

0. 031 

0. 798 

MRD1 

2. 246 

1.426 

1. 080 

1. 722 

MRD2 

-1. 985 

1. 585 

-1. 110 

1.850 

MRD3 

-0. 500 

1.408 

_ 0. 075 

1. 566 

MRD4 

1.248 

1. 106 

1. 119 

1. 136 

MRD5 

-0. 051 

0. 517 

— 0. 274 

0. 478 

SCIENCE 

0. 057 

0. 103 

— 0. 007 

0. 112 

LOGSIZE 

0, 119 并 

0. 045 

0. 105* 

0. 052 

TIME.2 

— 0. 042 * 

0. 021 

— 0. 052 

0. 034 

TIME_3 

— 0. 049* 

0. 022 

— 0. 049 

0. 040 

TIME_4 

-0. 168 奸 

0. 023 

-0. 100* 

0. 047 

TIME_5 

-0. 208** 

0. 025 

-0. 209** 

0.050 

截距 

1. 038 奸 

0. 171 

1. 002 

0. 178 


注： *0. 01</)<0. 05, ** p<0.01 o 


离差变量的系数可以当做固定效应估计值来解释，因为 
其仅仅基于公司内的变异，也正因为如此，它们控制了所有 
固定的预测变量。事实上，它们非常接近表 4. 6中研究发展 
经费变量的固定效应系数。和那个表格一样，唯一达到统计 
显著的离差变量是 DRD 0, 即当年研究发展经费支出的对数。 
GEE 系数 0.41 说明研究发展经费增长1%与专利数增加 
0. 41 %相关。 

与平常一样，混合模型法的一个吸引力在于它能够纳入 
非时变预测变量，在这里是 SCIENCE 和 LOGSIZE 。 后者对 
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于专利数有着显著的正影响。不过要谨记，与离差变量的系 
数不同，这些系数并没有控制其他未被纳入的解释变量。 

混合模型的另一魅力在于它具备对固定效应模型与限制 
更多的随机效应模型进行比较检验的能力。这是通过检验离 
差系数是否与对应的均值系数相同来实现的。从表 4. 8可以 
看到，尽管均值系数没有一个统计显著，但从总体上而言.它 
们与离差系数都大不相同。针对模型差异的卡方检验只能为 
选择固定效应模型提供勉强的支持。对于随机效应模型. 
Wald 卡方值为12_ 16,自由度为6(/> = 0. 06)。对于 GEE 模 
型， Wald 卡方值为 12. 8 7 ,自由度为= 0. 04) 0 
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第5节 | 总结 


针对计数数据的固定效应模型，可以在因变量服从泊松 
分布或负二项分布的假定下进行估计。当每个个体只有两 
期观察时，固定效应泊松模型的条件最大似然估计，可以通 
过将泊松模型转变为解释变量为差分值的分组数据 logistic 
回归模型来实现。当每个个体有两个以上的观察记录时，泊 
松模型的条件最大似然估计可以通过 Stata 中的 xtpoisson 
命令完成。 

无条件最大似然估计可以用标准的泊松回归软件完成， 
用虚拟变量来代表固定效应即可。与 logistic 回归不同.固 
定效应泊松模型的条件和无条件估计会产生相同的系数和 
标准误。不幸的是，标准误常常因为过离散问题而严重有 
偏。在 Stata 中，我用了自助标准误，以矫正过离散问题，其 
他一些软件包有计算上更简单的方法。 

解决过离散问题更好的办法是估计一个带有过离散参 
数的负二项回归模型。不过，这种模型不能用条件最大似然 
法进行估计。无条件最大似然估计只要使用虚拟变量作为 
固定效应，在任何负二项回归软件中都能完成。 

混合模型法在允许对时变自变量的固定效应系数进行 
估计的同时，也能对非时变自变量的效应进行估计。正如我 
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们在第2章和第3章已经看到的那样，每个时变变量被分解 
成为两部分 :一个 分个体的均值(个体内均值）和一个相对于 
该均值的离差。回归模型包括这两套变量，同时还有非时变 
自变量。个体内的相依问题可以通过 GEE 估计或随机效应 
模型的最大似然估计进行处理。 
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事件史分析这一名字指的是一套被设计用来描述、解释 
或预测事件发生的统计学方法。在社会科学之外，这些方法 

I 

通常被称做生存分析，主要是因为它们首先被生物统计学家 
发展岀来，以分析死亡事件的发生。碰巧这些方法非常适合 
用来分析大量的社会现象,如出生、结婚、离婚、失业、晋升、 
被捕、迁移和反抗等。事件史分析还有很多其他名称，包括 
失败时间分析 （failure time analysis ) 、风险分析 （hazard 
analysis ) 、转换分析 (transition analysis ) 和持续期分析 （ dura ¬ 
tion analysis ) 。 

一般而言，一个事件可以被定义为发生在特定时刻的 
性质 ( qualitative ) 改变。若要应用事件史方法，就需要有事 
件史数据，也就是一种记录着事件何时发生在某个体或某 
些样本个体身上的纵贯记录。例如，让一群被抽作样本的 
妇女汇报她们所生的全部小孩的出生日期，你就可以得到 
一 套可以用来分析出生事件的事件史数据。当然，如果你 
想进行因果分析或预测分析，你还得测量一些可能的解释 
变量，例如妇女自身的出生日期、教育水平、家庭收人、婚姻 
状态等等。 

下面我们将这个例子变得更加具体。在1995年的全国 
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家庭成长调查 （ National Survey of Family Growth ， NSFG ) 

中，一个能够代表全美国妇女的样本被要求报告她们曾经生 
育的所有小孩的出生信息 （ WWW . cdc . gov / nchs / nsfg . him ) 0 
这里使用的是该数据的一个子样本•包括6911个至少生育 
过一胎的妇女。这些妇女总共报告了 14932次活产事件。 
对每个生育事件，我都计算了岀生间隔，标为 DUR : 从目前 
这次生育到下一次生育的时间长度（以月计算），如果没有 
后续生育被观察到，则为到调查当日的时间长度。这些岀 
生间隔的潜在解释变量包括刻画当前生育特征的几个 
变量： 


PREGORDR 生育次序 （即 胎次 ）（1 到 15) 

MARRIED 如果生育时已婚则为1，否则为 0 

AGE 出生时母亲的年龄 （以年 计算） 

PASST 生产费用全部或部分由政府援助基金 

(public assistance funds ) 支付贝! ] 为 1 ，否 

则为0 

NOBREAST 如果母亲不用母乳喂养小孩则为1，否则 

为0 


LBW 如果所生为低体重儿则为1，否则为 0 

CAWSAR 如果生产为剖腹产则为1，否则为 0 
MULTIPLE 如果是多胞胎则为1，否则为 0 


另外还有一个变量 COLLEGE ， 如果妇女受过一些大学 
教育(在调查时)则等于1，没有受过大学教育则等于0;再有 
一个变量 BIRTH , 如果出生间隔是以另一次生育事件结束 
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的则为 1， 如果是由该调查作为结束的则为 0—— 一 个删失 
间隔。这一数据集有6911个删失间隔。每个妇女都有一个 
删失间隔，因为每个人的最后一个间隔都是被调查访问结束 
的。最后，变量 CASEID 是一个 ID 变量，其取值在同一个妇 
女的所有生育间隔记录中都是相同的。我们的目标是对生 
育间隔估计一个回归模型。 
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第1节 | Cox 回归 


分析事件史数据最流行的方法是 Cox 回归，这是以发展 
了比例风险模型 （proportional hazards model ) 及估计这一模 
型的偏似然方法 （partial likelihood method ) 的 David Cox 来 
命名的。在进行固定效应分析之前，我简单回顾一下这种 
方法。 

Cox 回归不是直接对间隔长度进行建模，其因变量是事 
件发生的风险或瞬间的可能性。对于可重复发生事件，风险 
的定义如 下:令 为个体 z 在时间 f 以前发生的事件数， 
那么个体 Z 在时间？的风险可以这样 给定： 


M,) = lir n Pr ^ ⑴ 二 1 ] 

j 一 0 



用文字来说，这个方程表达的是我们先考虑在某个极短 
的时间间隔以内一个新事件发生的概率。再构建这一概率 
对的比率，然后取趋近于0时这一比率的极限。对于 
重复发生事件，这一风险函数又被称为强度函数。 

接下来，我们将这一风险建模成为解释变量的函数。令 
心（0表示个体〖发生第々次事件的风险，那么比例风险模型 
是如此给 定的： 

\ ogh tk ( t ) = /^[/― / k ^- 1 )] +^ x Ijt [5. 2_ 
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其中，^是能够在不同个体间及事件间发生变动的自变量列 
向量 ，戸是 系数行向量，是第(々一 1 ) 次事件发生的时间， 
〆 •） 是最近一次事件发生以来的时间长度的未定函数。在 
这一模型中，我们假定 • )对样本中的每一个个体都是同 
一个函数。 

偏似然估计的一个显著特征，是它可以在不对函数0做 
任何假定的情况下对;3进行估计。至于它是如何实现这一 
点的，可以参见笔者的另一本书 （ Allison , 1995 )。在 Stata 
中， Cox 回归是通过命令 stcox 完成的。表 5. 1( 前两列数字) 
给出了对上述出生间隔数据拟合 Cox 模型所得到的结果，这 
里将所有的岀生间隔都当做相互独立的观察，也就是说，将 
每一个岀生间隔都看做来自总体中的不同妇女。除低岀生 
体重外，所有变量对下一次生育的风险都有高度显著的影 
响。已婚或受政府援助的妇女有更高的生育风险。其他变 
量的系数都是负的。 


表 5.1 常规模型的 Cox 回归估计 ^ 



系数 

常规标准误 

稳健标准误 

风险比率 
(Hazard Ratio) 

PREGORDR 

一 0. 163 

0. 011 

0.016 

0. 849 

AGE 

一 0. 065 

0. 003 

0, 003 

0. 937 

MARRIED 

0. 221 

0. 029 

0. 030 

1. 247 

PASST 

0. 137 

0. 029 

0. 029 

1. 147 

NOBREAST 

— 0. 270 

0. 023 

0. 023 

0. 763 

LBW 

— 0. 003 

0. 042 

0. 043 

0. 997 

CAESAR 

一 0 . 116 

0. 030 

0.028 

0. 890 

MULTIPLE 

一 0. 702 

0. 143 

0. 144 

0. 495 

COLLEGE 

一 0. 207 

0. 026 

0. 026 

0.813 


注 3 除 LBW 的 p 值大于 0. 90 外， 其他系数的々值都小于 0. 01。 
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要想得到有关这些结果的更具体解释，査看最后一列 
(标有“风险比”)会有很大的帮助，它给出了系数估计值的指 
数幂。风险比解释起来几乎和 logistic 回归中的发生比率完 
全一样。例如 MARRIED 的风险比为1.25。这意味着一个 
生育时已结婚的妇女再次生育的风险比没结婚的大25%(在 
控制了模型中的其他变量后）。 MULTIPLE 的风险比是 
0. 495,这意味着如果一个妇女生的是双胞胎，那其再次生育 
的风险将减半。对于 AGE 来说，风险比是 0. 937,这表示（作 
为)母亲，其年龄每增加一岁，将使下一次生育的风险减小 
100 X (1 — 0. 937) = 6.3%。 

不过，上述结论有潜在的问题。有69%的妇女每人至少 
为这一数据集提供了两个生育间隔，因此怀疑同一个人的多 
条观察之间存在一定相关是合理的。具体而言，很自然地就 
能想到，可能某些妇女的生育间隔就一直都比较短，而另一 
些的生育间隔一直都比较长。不考虑这种相依性将严重低 
估标准误和值。 

幸运的是，使用在前面章节干用过的稳健方差估计法修 
正标准误很容易 （Therneau & Grambsch ， 2000) 。通过 vce 

(cluster caseid ) 获得的稳健标准误呈现在表 5. 1的第三列 
中。此处绝大部分的修正都很小，只有 PREGORDR ①的修 
正标准误例外，它比未修正时要大37%。这样产生的修正2 
统计量只有未修正时的一半，不过仍然高度显著。 


①此处原书为 PREGORDER ， 但根据上下文及输出表格可知应该为 PREG (> 
RDR n ——译者注 



10 () 


固定效应回归模型 


第2节 | 带固定效应的 Cox 回归 


现在我们已做好准备将固定效应加到 Cox 回归 模型中： 
与往常…样，这将允许我们控制所有稳定的预测变量，并处 
理好重复观察之间的相依问题。与此前的几个固定效应模 
型一样， a , 代表所有稳定的自变量的综合作用。我们的固定 
效应回归模型的第一形 式是： 

log /^( Z ) —fiit — f t <k - \ I ) ~r j 3 x li: L a t [。- 3」 

针对我们的生育间隔数据，方程 5. 3 如何才能被估计出 
来呢？ 一种想当然的做法是，将标识每个妇女（除其中一个 
外）的虚拟变量（组）放到模型里去。这种方法在线性模型、 
泊松模型以及负二项模型中很奏效•但在这里会遇到严重的 
困难。首先，估计一个带有6910个虚拟变量的 Cox 回归在 
实际操作上就是个问题。 [21: 

更为根本性的麻烦在于估计如此众多的“伴随性参数” 
导致的可能偏差。在前面几章中.我们发现这种偏差在 
logistic 回归模型中可能非常严重，但在泊松或负二项回归 
模型中并不如此。在其他地方 （ Allison ， 2002)，我已经指 
出： Cox 模型在这一点上与 logistic 模型很像。当每个人的 
平均间隔数少于3个时，使用虚拟变量法估计固定效应模 
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型所产生的回归系数偏差（偏离 0) 约为30%—90%，偏差 
大小取决于删失的水平（删失案例所占比例越高.产生的膨 
胀越大）。 

幸好，另外有一种方法实行起来简单而且非常有效。像 
在 logistic 回归和泊松回归中使用的条件似然法•因为虚拟 
变量的系数并没有真正被估计出来而是被从似然方程中消 
除了。首先，我们调整方程 5. 3,通过定义我们得到 

"/ [，— ^^-1) ] = "[/ — t !(h —u ] + a , 

log / i < k ( t ) = 十卢了 * [5.4] 

在这一方程中，固定效应 a , 被整合进了时间的未定函数 
中，这一函数现在被允许在每个个体上都不一样。注意，方 
程 5. 4与方程 5. 2中的常规 Cox 模型的唯一不同之处就在 
于^的下标 I 这样，每个个体都有其自身的风险函数，这比 
只允许每个个体有自己的截距来得更加宽松。 

方程 5. 4可以通过标准的 Cox 回归程序和广泛可得的 
分层选项 （option of stratification ) 进行估计。分层（模型）允 
许不同的子群体有不同的基准风险函数，但同时限定系数 
在各个子群体中相同。它是通过为每个子群体建立一个偏 
似然函数，将所有这些似然函数连乘起来，然后在考虑系数 
向量的情况下，将结果似然函数最大化来完成的。利 
用 Stata 中的 stcox 命令，分层可以通过设置 strata ( caseid ) 
选项实现，这将意味着6911个妇女每个人都被当做一个 
独立的层。看起来层的数量似乎非常大，但 stcox 能够轻 
松搞定。 


①即保证0在各子群体中相同。——译者注 
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表 5. 2 中模型 1 的结果，呈现出与表 5.] 不同的地方，这 
些差别值得注意。第一， COLLEGE 没有任何报告信息。像 
大多数固定效应方法(除了混合模型法）一样.我们不能估计 
那些在个体内不存在变化的变量的系数。从 COLLEGE 往 
上，我们看到多胞胎的系数与前面的估计差不多一样。但变 
量 CAESAR 的系数有些变小，并且统计上不再显著。低出 
生体重在前面是高度不显著，但这里 P 值小于0.01 。 LBW 
的风险比告诉我们.所生为低出生体重儿将使下一次生育的 
风险下降了 21%。 母乳喂养的作用不管在大小还是在显著 
性上都有所下降。政府支持在前面高度显著，但在这里一点 
也不显著。婚姻状态的影响在这里差不多一样。年龄在统 
计上不再显著。而怀孕胎次的影响比前面要大得多，无论在 
大小还是在统计显著性上都如此。每多生一胎将会使生育 
下一胎的风险下降50%。 


表 5. 2固定效应模型的 Cox 回归估计 




模型 1 


模型 2 


系数 

标准误 

风险比率 

系数 

标准误 

PREGORDR 

-0. 71P* 

0. 034 

0. 491 

-0. 712"* 

0. 

034 

AGE 

0. 007 

0. 011 

1. 007 

0. ⑻7 

0. 

011 

MARRIED 

0. 181 ^ 

0. 070 

1. 199 

0. 182“ 

0. 

070 

PASST 

0. 077 

0. 069 

1.080 

0. 076 

0. 

069 

NOBREAST 

一 0_ 128 ， 

0. 060 

0. 879 

0. 043 

0. 

100 

LBW 

0. 237 ** 

0. 081 

0. 789 

一 0. 243“ 

0. 

081 

CAESAR 

-0. 079 

0. 093 

0. 923 

-0. 080 

0. 

093 

MULTIPLE 

— 0, 607 ** 

0. 218 

0. 545 

0. 590 o 

0. 

219 

COLLEGE 

( 被剔除） 



( 被剔除） 



COLLBREAST 




— 0. 267* 

0. 

125 


注： ' o. 01 < p < n. os.p<o. ou 
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为什么固定效应估计会如此不同于常规 Cox 回归估计 
的结果呢 9 与所有固定效应模型一样，这一模型控制了所有 
稳定的自变量，因此早先表 5. 1中的有些结果可能是虚假 
的。如果非让我在表 5. 1的常规结果与表 5. 2的固定效应 
结果之间作出选择的话，我会断然地选择后者。我们脑子里 
必须记住的是，在此处的分析中，每个妇女不同的出生间隔 
是与其自身进行比较。对于每一个妇女，我们的疑问 是：为 
什么她的出生间隔中有一些会比另一些长或者短？例如，是 
因为她在某些岀生间隔中处于结婚状态，而在另外一些未处 
于结婚状态吗？这一方法得出的答案•与考察为何有的妇女 
比另一些妇女倾向于有更长的出生间隔所得的答案是完全 
不同的。 

固定效应模型的这一方面与 PREGORDR 变量尤其相 
关。在常规 Cox 回归中，这一变量对风险似乎有虚假的正向 
作用。在一个固定的时间区间内，生育次数多的妇女其生育 
间隔必然小。但通过固定效应分析，我们能够移除这一人为 
因素，这就是使负系数比原来大很多的原因。 

和线性模型及 logistic 模型一样，尽管固定效应模型不 
能估计非时变变量如 COLLEGE 的作用，但它能够估计非时 
变变量与其他变量之间的交互作用。例如，我们可以估计一 
个含有 COLLEGE 与 NOBREAST 交互项的模型。这只需 
纳人 COLLEGE 和 NOBREAST 的乘积项作为预测变量之 
一就可以了。相应的结果在表 5. 2的模型2中。可以看到， 
这一交互项在 0.03 水平上统计显著。但如何对其进行解释 
呢？ NOBREAST 的“主效应”代表当 COLLEGE = 0时，也 
就说在未接受大学教育的妇女中该变量的作用。这个系数 
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是正的但高度不显著。而 NOBREAT 在受过大学教育的妇 
女中的作用等于上述主效应加上交互项 （一 0.2659 + 
0. 0421 =一0. 22)。使用 test 命令，我们可以发现两者之和 
显著不等于 L 因此，结论是在受过大学教育的妇女中.母 
乳喂养会增加随后一次生育的风险，但在其他妇女中这种 
影响不存在。 

Stata 也能估计随机效应 Cox 模型，这一模型同样可用 
方程 5. 3设置，但假定 a , 服从伽马分布 且与+ 独立。这种类 
型的模型通常被称为“共享脆弱性”模型，其中 a〆 或者其指 
数幂形式)被描述为脆弱成分。其意思是说，有些个体比其 
他个体更加脆弱，因而更有可能经历该事件。 Stcox 命令中 
用于估计此种模型的选项是 shared ( caseid ) 0 不过， Stata 在 
试图对本出生间隔例子估计这一模型时遭遇了计算上的失 
败，这显然是样本规模(过大)造成的。 

但随机效应 Gompem 模型的运算取得了成功（用 streg 
命令完成），这一模型是方程 5. 3的特殊形式，方程中的 
〆 •） 被设定为一个线性函数。模型结果呈现在表 5. 3中。 
各项结果与表 5. 1中常规 Cox 模型的估计非常相似，即使没 
有进行稳健标准误修正。在％的方差估计值不显著地区别 
于0的情况下，这并不奇怪。当然，表 5. 2中的固定效应估 
计显著地不同于随机效应估计，再一次证明控制住未被观测 
到的异质性非常重要，即使在随机效应模型未能提供此种异 
质性存在的任何证据时也是如此。 
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表 5. 3随机效应 Gompertz 模型估计结果 a 



系数 

常规标准误 

稳健标准误 

风险比率 

PREGORDR 

~0. 163 

0. 011 

0. 016 

0. 849 

AGE 

—0. 065 

0. 003 

0. 003 

0. 937 

MARRIED 

0. 221 

0. 029 

0. 030 

1. 247 

PASST 

0. 137 

0. 029 

0. 029 

1. 147 

NOBREAST 

-0. 270 

0, 023 

0. 023 

0. 763 

LBW 

— 0. 003 

0. 042 

0. 043 

0. 997 

CAESAR 

— 0. 116 

0. 030 

0. 028 

0. 890 

MULTIPLE 

— 0. 702 

0. 143 

0. 144 

0. .195 

COLLEGE 

-0. 207 

0. 026 

0. 026 

0. 813 


注: a 除 LBW 的户值大于 0. 90外.其他所有系数的户值都小于0,01, 
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第3节1附加说明 


尽管固定效应 Cox 模型有上述吸引力，但它同样存在常 
见的缺陷。第一，和其他固定效应方法一样，与常规分析相 
比，固定效应 Cox 模型的统计力会大大降低。在本例中•只 
有一个生育间隔的妇女都被排除在分析之外，因为这些间隔 
无法与其他间隔进行比较。这排除了 2109个生育间隔，第 
二，在只有两个生育间隔的妇女中，如果第二个生育间隔（总 
是有删失的)小于第一个，那两个生育间隔都会被排除在分 
析之外。原因如 T 。 假定第一个生育间隔是28个月•而第 
二个间隔是20个月 3 在建构发生于第28个月的生育事件 
的偏似然函数时，计算公式将在相同的时间点寻找其他“处 
于风险中”的间隔（来自同一个妇女）。但另一个生育间隔在 
第20个月时删失了，这样，对于那个生育间隔，该妇女已经 
不再处于在第28个月发生可观察生育事件的风险中了。因 
此，前述出生没有对象可进行比较，该妇女也就被排除在偏 
似然函数之外。在 NSFG 数据中，此种间隔的排除又导致 
M 68 个案例被损失掉。 

第三，即使对那些保留下来的观察记录，固定效应方法 
也根本就没有考虑不同妇女间的变异信息.而只使用了妇女 
内变异。因此，如果某个协变量在不同妇女之间存在很大差 
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异,而每个妇女历时变化很小时，那么该变量的系数将不能 
被可靠地估计岀来。例如，变量 PASST 的80%的变异在于 
不同妇女之间，属于妇女内的变异只有20%。因此毫不奇 
怪，表 5. 2中其系数的标准误，与表 5. 1相比，是后者的两倍 
多，因为后者的标准误是基于妇女间及妇女内两种变异计算 
岀来的。 

除了常见的固定效应模型的不足之外，固定效应 Cox 回 
归还容易受特定类型的变量的影响。这些问题最有可能在 
岀生间隔研究中出现的这类数据结构下发生。在这种数据 
结构下，每个个体被观察了一段固定的时间，在这一段时间 
内，可能有多次事件发生，但只有最后一个间隔是删失的。 
张伯伦 ( Chamberlain ，1985) 认为，这种结构违反了似然估计 
的基本条件，因为一个间隔被删失的可能性取决于前一个间 
隔的长度。 

在一个仿真研究中 （ Allison , 1996 )，我已经指出这种违 
背对于绝大多数自变量不会产生严重的问题，但在估计刻画 
以往事件特征的变量的系数时会导致偏差。具体地讲，固定 
效应偏似然估计倾向于让以往事件的数量、以往间隔的长度 
对风险产生负的影响，即使这些变量并没有真正的影响。这 
无疑与表 5. 2中的结果相一致，表中胎次对下一次生育的风 
险有很强的副作用。这一问题在每个个体的平均事件数少， 
删失间隔在所有间隔中所占比例高的情况下最严重。不过， 
前面我已经指出，对此前事件数的影响的估计，常规 Cox 回 
归的偏差可能更大，只是偏向另外一个方向。 
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第4节 | Cox 回归混合模型法 


在前面的章节中，我们看到可以通过将时变自变量分解 
成为具体单位的均值以及相对这些均值的离差，然后将所有 
这些变量纳人常规回归分析，可能的话，再修正同一个体的 
多次观察之间的相依性就能复制或近似地模拟固定效应分 
析的结果。不过，由于某种并不太清楚的原因，这一方法看 
起来在 Cox 回归中不大好使。例如，如果我们将混合法用于 
这一生育间隔数据，有几个变量的系数及 P 值与表 5. 2中的 
存在天壤之别。我对 Cox 回归混合法的仿真研究也很让人 
沮丧。因此•我无法为事件史分析推荐、介绍混合模型法。 
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第5节 | 非重复性事件的 

固定效应事件史法 


固定效应 Cox 回归要求样本中至少有一些个体经历一 
个以上的事件，这样个体内的比较才成为可能。显然，这种 
方法无法应用于不可重复的事件，例如死亡。不过，在某些 
条件下，通过应用条件 logistic 回归，并把时间看做离散的， 
可能可以对非重复性事件进行固定效应分析。在流行病学 
文献中，这类分析叫做病例交叉研究 （casecrossover study ) 
( Maclure ，1991) ，尽管我这里描述的实现方式与流行病学通 
常所做的存在一些差异。 

与通常一样，我将从一个经验的例子开始。设想我们要 
回答下面的 问题: 妻子的去世是否会增加丈夫去世的风险? 
这是一个很难有信心回答的难题，因为丈夫的去世与妻子的 
去世之间的任何相关都可能是共同的环境特征影响下的结 
果。他们中的大多数都已经在相同的住所、相同的邻里环境 
中共同生活了很长一段时期。而且，他们倾向于来自相同的 
社会经济背景，有着类似的生活方式。除非我们能够控制这 
些共同点，否则任何观察到的一个配偶的死亡与其另外一个 
的相关都有可能是虚假的。因此，非常需要将固定效应分析 
作为一种方法，来控制所有稳定的、未被测量的解释变量。 
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为了回答这一问题，我将分析一个含有49990对已婚夫 
妇的数据，数据中夫妇双方在1993年1月1日 [22: 时都还健 
在，并且都至少已有68岁。截至1994年5月30日期间，已 
亡夫妇的死亡日期都是已知的。在这17个月期间，丈夫中 
有5769人死亡，而妻子中有1918人过世。我们将时间看做 
由离散的单位组成，在这里是以日计算•列举出来就是 
/ = 1，2, 3…令九表示在前一天仍然活着的条件下丈夫 z 
在？日死亡的概率，再令 = 如果妻子 ，在 〖日还活着的 
话，否则为0。 

我们将用一个 logistic 回归模型来表示妻子的存活状况 
对其丈夫死亡的概率的 影响： 

log( 1 )= a, + 7； + ^ (/ [5.5] 

其中 P 表示时间对死亡的对数发生比的线性作用， a 表示所 
有未被测量的在各个时期保持稳定的变量的固定效应。注 
意: 模型中没有放入非时变预测变量，因为它们的作用已经 
被整合进了项中。 

现在我们试图用第3章中描述过的条件最大似然法对 
这一模型进行估计，这种方法将所有的 a, 都从估计方程中消 
掉。下面是这一数据集的构成方式。对于去世了的男人，夫 
妇们被观察的每一天都创建了一条单独的观察记录，从第一 
天 （1993 年1月1日）到去世那天为止。对于这些夫妻一日 
记录 (coupledays)， 因变量I，被编码为0,如果该男性在当 
天还健在 的话; 如果在那一天他去世了，则编码为1。这样, 
一个在1993年6月1日去世的男性将提供152个夫妻 一日； 
其中151个的取值为0,最后一个的取值为1。解释变量 
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W ,, 在妻子活着的口子里都被编码为0,妻子已经过世了的日 
子里都被编码为1。尚未去世的男性没有创建记录，因为在 
二分结果变量的固定效应分析中，没有发生变化的个体对似 
然函数没有任何贡献。本工作数据中夫妻一日的总数为 
1377282。和第3章中描述的一样，模型可以通过 Stata 的 
xtlogit 或 clogit 命令进行估计。 

不幸的是，对于这两个命令，用来使似然函数最大化的 
计算公式都不能收敛。对数似然值很快就变成0,且迭代序 
列延续不断、没个尽头。收敛失败的原因在于每对夫妇那串 
观察记录的因变量都是由一连串0跟上一个1组成的。也 
就是说，事件总是发生在最后一个观察单元。因此，时间或 
时间的任何单调递增函数（例如时间的对数，或时间的平方 
根)都将完美地预测该夫妇的结果.从而无法得到该协变量 
或模型中任何其他协变量的最大似然估计。在 logistic 回归 
文献中，这一问题被叫做完全分离 （Albert Anderson ， 
1984; Allison , 2004 )。[ 23 - 

事实上，对于我们这个死亡事件的例子，不收敛问题并 
不局限于时间变量的原因。即使把时间移出模型，我们得到 
的仍是不收敛(尽管现在的问题不是完全分离而是半完全分 
离）。因为 W ,,， 即妻子是否死亡这一虚拟变量，随着时间推 
延而增加，但从不减小，它完美地预测了最后一天的死亡事 
件的发生。因此，它的系数在计算公式每迭代一次时都会变 
得更大。 

克服这个问题的一种方法是把改进成为一个标识. 
指示妻子是否还在世，比方说，过去60天内过世。当妻子去 
世时，这个协变量从0变化为1，但在第60天之后又变回成 
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为 0( 如果这个丈夫还活着的话 h 通过估计时间窗口大小不 
同的模型可以提供有用的信息，描述妻子死亡的影响如何开 
始、到达顶峰以及结束。 

表 5. 4的上半部分同时给出了使用几个不同时间窗口 
的情况下(但没有包括时间本身的影响），衡量妻子的过世对 
于丈夫去世的影响的发生比率的固定效应估计。在所有情 
况下，发生比率都超过 1. 0,并且 6 0天间隔和30天间隔下都 
统计显著。对于后一种情况，在妻子死后30天内，丈夫死亡 
的发生比是其他时间发生比的2倍。©表 5. 4的下半部分给 
出了常规 logistic 回归得到的发生比率，没有控制稳定不变 
的、未被观察的协变量。与上半部分相比，这一部分的发生 
比率都要小，而 p 值都要高。 


表 5. 4 在不同时段内以妻子的死亡事件对丈夫的 
死亡进行预测的发生比率 


妻子死亡多少天以内 




15天 

30天 

60天 

90天 

120天 


风睑比率 

1. 26 

1. 96 

1. 61 

1. 27 

1. 26 

固定效应估计 ■ _ _ 


户值 

0. 54 

0. 006 

0. 03 

0. 24 

0. 


风险比率 

1. 13 

1. 56 

1. 21 

0. 97 

0. 93 

常规估计 .. _ __ 


户值 

0. 71 

0. 04 

0. 29 

0. 87 

0. 61 


尽管这些结论非常有趣，但危险在于，模型没有对历时 
的变化进行控制。这不仅仅是一个技术问题，还是一个能够 
对从病例交叉研究中得出的任何结论都构成严重危害的问 


①这里实际上是将妻子死后30天内丈夫死亡的发生比与其他时间（包括妻子 
死前或没死，以及妻子死了 30天之后三种情况）丈夫死亡的发生比进行比较。——译 
者注 
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题 （ Greenland , 1996； Suissa , 1995)。对于我们的例子来说， 
只要妻子的死亡发生率有随着观察期延长而增加的趋势，就 
有可能导致丈夫的死亡与妻子的死亡（不管如何编码）之间 
的虚假相关。直观地讲，原因在 于：丈 夫的死亡总是出现在 
每对夫妇的观察序列的结尾，因此，任何倾向于随着时间而 
增加的变量，看起来都会增加丈夫死亡的概率。 

现在我们来考虑另外一种固定效应模型，它看起来能 
够解决因未控制时间的影响而造成的问题。休莎 （ SuLssa ) 
发明 r 一 种方法.并把它叫做“案例时间…控制”设计，这 
种方法的关键创新之处，在于将条件 logit 模型中的因变量 
与自变量进行调换的计算策略。这使得在模型中纳入对于 
吋间的控制成为可能，而这种控制在病例交叉法中是无法 
实现的。 

众所周知，当因变量和自变量都是二分变量时，发生比 
率是对称的——调换因变量和自变量将得到相同的结果，即 
使模型中还有其他自变量。 [21] 在案例一时间一控制法中.工 
作因变量是二分协变量——在我们这个例子中.是妻子是否 
在过去一段日子里死亡。自变量是标识事件（丈夫的死亡） 
是否在给定日期发生的虚拟变量，以及时间的某种适当形 
式.如一个线性函数。同样，估计的还是一个条件 logistic 叵 
归，且将每对夫妇都单独作为一层对待。在这一方程中，将 
时间作为协变量纳人不存在问题，因为工作因变量不是时间 
的单调函数。 

在休莎方法的方程式中，有必要纳入所有个体的数据- 
包括经历了事件的人以及被删失了的人。不过，他的模型只 
是针对每个个体仅有两个时间点的数据发展出来的 •一 个事 
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件时段 、一 个删失时段。在那种情况下，如果样本仅仅局限 
于经历了事件的人.那协变效应和时间效应将完全混合在一 
起。而删失案例则能够提供协变量受制于时间的有关信息， 
这些信息与事件的发生不存在混淆。 

不过，我们的数据集(有可能很多其他数据也）在不同时 
点上对每个个体有多个“控制”。这消除了时间与事件发生 
(丈夫的死亡）之间的完全混合，使得我们可以将案例一时 
间一控制法只用于未被删失的案例。在很难或无法收集到 
未经历事件的人们的信息时，这是一个极大的好处。如果估 
计时未包括删失案例，这个模型的唯一限制是，我们无法估 
计一个时间影响完全随意的模型，也就是说，模型中不能带 
有标识每个时点的虚拟变量。 

当然，如果删失案例的信息是可得的（如在我们这个数 
据集中），那么纳人它们，可以得到更准确的对时间的影响的 
估计。不过，即使删失案例是可得的，将分析限制于事件经 
历者仍具有潜在的优势。案例一时间一控制法假定协变量 
对于时间的依赖（即时间对于协变量的影响）在经历了及未 
经历事件的人身上是一样的，这一点为人所批评 （ Greenland , 
1996)。如果分析的数据仅限于事件的经历者，那此种批评 
也就毫无力道了。 

对于死亡事件数据，工作数据集与前面的一样，从幵始 
到丈夫死亡或者删失当天，每个观察者每天都有一条记录。 
因为条件 logistic 回归要求每个条件层的因变量都有所变 
动，我们可以将妻子没有在丈夫之前死亡的夫妻案例删除 • 
而不存在信息损失。 

本工作数据集中有39942个夫妻一日•仅来自126对夫 
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妇。这是丈夫死亡且妻子先于丈夫死亡的夫妻数。尽管这 
只是原样本49990对夫妻中很小的一部分，但使用固定效应 
方法时，只有这些人含有妻子的死亡对丈夫死亡的影响的信 
息。这是一个问题么？如果同一个模型（带着同样的系数) 
适用于总体中的每一个人，那就不是一个问题。但如果不同 
子群体的模型不一样，那从这126对夫妻获得的结果就只能 
准确地描述他们而已，但不能描述整个总体。 

工作模型的定义如下。令表示丈夫£在？天是否死 
亡的虚拟变量，而 P , 表示在〖天之前的一定时日内妻子死亡 
的概率。 logistic 回归模 型为： 

log ( 1 ) = a , + H lt +/ 3 2 t + p 3 t 2 [5. 6] 


表 5. S 以赛子之死对丈夫的死亡进行预测所得不同时段内的风险比率 

(案例 一时间 一控制法} 



15天 

30天 

60天 

90天 

120天 

风险比率 

1. 26 

2. 08 

1, 74 

1.28 

1. 11 

户值 

0. 54 

<0. 004 

0. 01 

0. 25 

0. 63 


尽管也可以使用其他函数，但这一模型允许纳入时间的 


表 5.5 给岀了不同时间窗口下发生比率的估计。结果 
与表 5. 4中的非常相像，后者使用的是病例一交叉法。证据 
再次表明妻子的死亡对于丈夫死亡的风险的影响受到时间 
的限制，妻子死亡两个月后其影响将大大降低。 

尽管我们的工作因变量是妻子的死亡，但发生比率得解 
释成妻子的死亡对于丈夫死亡的发生比的影响。这是由于 
观察的时间顺序的原因——妻子的死亡总是发生在丈夫之 
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前。如果我们的目标是估计丈夫的死亡对于妻子死亡的影 
响，那我们得构建一个完全不同的数据集，包含妻子死前的 
夫妻-日记录，而不是妻子死后的。 

在这个例子里，我们只估计了一个二分协变量（妻子在 
一定的时日内的死亡)对于不可重复事件(丈夫的死亡）的影 
响。这种方法允许我们控制所有固定变量。但是，假设我们 
想控制时变自变量，如吸烟状况。仿真研究 （Allison & 
Christakis , 2006) 发现，附加解释因素作为自变量，可以直接 
纳人方程 5. 6所设定的 logistic 回归模型。尽管附加自变量 
的系数不是这些变量对丈夫死亡的影响的无偏估计，但纳入 
这些解释因素后，能够得到妻子的死亡对于丈夫的死亡的影 
响(方程 5. 6中的 负的近 似无偏估计。假如我们要估计吸烟 
状况对丈夫的死亡的影响，那我们就得使吸烟的概率成为方 
程 5. 6中的因变量，另外有可能再纳人妻子的存活状态作为 
协变量。即使吸烟状态有两个以上类别，这种程序仍然有 
效，只是这时方程 5. 6需要被设定成为一个多分类 logistic 回 
归。不过，我听说没有办法把案例一时间一控制法推广到对 
定量自变量的影响进行估计。 
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第6节 | 总结 


事件史数据的固定效应回归分析通常要求每个个体有 
多个的、重复的事件。与我们在 logistic 回归中看到的一样， 
使用虚拟变量法估计固定效应，常常会导致对于其他变量的 
系数的有偏估计。这一伴随性参数问题在使用 Cox 回归时 
可能被避免，这种方法利用分层法将固定效应从偏似然函数 
中消除，即使是在分层数目很大的情况下仍然具有计算效 
率。在大多数情况下，分层法都能产生近似无偏的估计。 

与其他固定效应方法一样，分层 Cox 回归在统计功效上 
也会遭受巨大的损失。自然的，只有一条观察记录的个体不 
能给分析提供任何信息。即使一个个体有一条删失记录和 
一条非删失记录，只要删失记录的时间区间相对较短，这个 
个体的两条记录也会被剔除在分析之外。最后，只有个体内 
的变异信息被用来估计各个系数。由于一些目前我们还不 
太清楚的原因，混合模型法——它在线性、 logistic 和计数数 
据回归中运行良好——在 Cox 回归中无法产生正确的结果。 

尝试对非重复性事件进行固定效应回归分析会遇到严 
重的困难。基本策略是把时间看做离散的，然后分别针对每 
个人的各个被观察的离散时间点创建一条独立的记录，从幵 
始观察一直到事件发生或者删失时为止。对于每一条记录， 
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都有一个二分因变量，如果事件在该时间点发生则编码为1， 
否则编码为0。最后一步是，对这一因变量估计一个条件 
l 0 gi S t 1 C 回归，并将每个个体单独作为一层，而自变量为在不 
同时点上有所变化的变量。这种具有吸引力的方法的一个 
根本问题是，如果时间（或者时间的任何单调函数)被作为解 
释变量，那模型会因为分离问题而得不到收敛。原因 在于: 
事件总是发生在每个个体的观察序列的末尾，从而使得时间 
能够完全预测事件的发生。 

尽管未纳人时间(变量)的模型确实能够被估计出来，但 
因为时间对于(事件）风险以及自变量的影响未被控制住可 
能是有偏的。一种解决途径是案例-时间-控制法，这种方法 
好像对估计分类协变量对于风险的影响很管用。这种方法 
的创新之处在于调换了条件 logistic 回归中因变量与自变量 
的角色，从而使得在模型中纳入作为协变量的时间成为 
可能。 
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在第2章中，我们考虑了几种估计线性固定效应回归模 
型的不同方法。在这一章，我们将展示如何把固定效应回归 
当做带一个潜变量的线性结构方程模型来估计。为什么我 
们还需要另外一种方法来估计同一个模型呢？答案是 :通过 
将模型置于一种结构方程框架，我们能够得到一些通过常规 
计算方法难以或者不能得到的结果。具体地讲，我们 可以： 

(1) 估计固定效应和随机效应的折中 模型； 

(2) 构建对固定效应与随机效应进行比较的似然比 检验； 

(3) 估计两个反应变量间存在相互作用的固定效应 模型； 

(4) 估计反应变量为时滞值的固定效应模型； 

(5) 估计潜变量带有多个指标的模型。 

我之所以在这里为这种方法单辟一章，是因为其数据结 
构及概念框架与第2章中大多数方法所用的非常不一样。 
我首先将解释如何用结构方程软件估计第2章中描述过的 
随机效应模型。然后，我们会考察如何对这种模型进行调 
整，以形成固定效应模型。 
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第 1 节 I 随机效应作为 潜变量 的模型 

....o 溢 Z 」 r-:、'- . 乂 . ::n;. .,#^:厂 -'.v 


在第 2 章中，随机效应模型被设 置为： 

y tl — yit + pJ'u + / + a, + £ 1； [6. 1 」 

其中，: V ,是个体/在时间：的反应变量取值，: T ,, 是时变自变量 
向量，4为非时变自变量向量4表示随机效应，6, f 为随机扰 
动项。我们假定 a 和代表独立正态分布变量，其均值为 
0,方差恒定。我们还假定，至少是在现在，这些随机成分都 
与：^，及2：,相互独立。 

众所周知 （ Mmh € n ， 1994)，如方程 6. 1所示的随机效应 
模型可以用结构方程模型 ( SEM ) 来表示，后者可以用众多被 
设计用来估计此种模型的软件（如 LISREL , EQS , MX , 
Mplus 或者 Amos ) 之一进行估计。不幸的是， Stata 中没有 
估计这种模型的命令 。「〜 在这里，我是用 MplusCwww . stat - 
model . com ) 来估计本章讨论的模型的。从概念上讲，我们认 
为方程 6. 1给每个时间点都设定了单独的方程，但限定各个 
时点对应的回归系数相同。随机项 a 和 £ 被当成潜变量。不 
同时点有不同的£，但是各个时点的 a 却是相同的。 

SEM 通常用通径图来表示 （ Kline ， 2004)。图 6. 1是 
一个有三期数据、一个时变自变量的模型的通径图。在 
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SEM 的通径图中，按照惯例，通常把直接观察变量放在矩 
形框中，而把潜变量放在圆圈或者椭圆中。直线单向箭头 
表示一个变量对另一个变量的直接因果作用，而曲线双向 
箭头表示两个外生变量之间的二元相关（用结构方程模型 
的术语来说，内生变量是那些至少在一个方程中作为因变 
量的变量。外生变量是那些未在任何方程中作为因变量 
的变量）。 



- ► v 

Gr 


图 6.1 三期数据随机效应模型的通径图 


在第2章中，我们使用 Stata 中的 xtreg 命令估计了方 
程 6. 1中的模型，当时是应用在 NLSY 数据上，该数据含有 
581名儿童在3个不同时期的观察记录。当时的工作数据 
包含了每个小孩的3条记录，总共有1743条记录。因变量 
是对反社会行为 （ ANTI ) 的测量。自变量包括两个时变变 
量:贫 困状况 （ POV ) 和自信水平 （ SELF )， 还有几个非时变 
变量。 

要像结构方程模型一样估计该模型，我们将使用每个小 
孩只有1条记录、同一变量在3个时点的观察结果对应不同 
变量名的原始数据形式。使用 Mplus 实现这一估计的程序 
代码在附录2中。 
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在编写 SEM 程序来估计随机效应模型时有几点需要 
谨记： 


(1) 很多 SEM 程序包估计模型时，默认情况下只使 
用协方差矩阵信息，这时你得不到截距（方程 6. 1中的 
^ 表示）的估计结果。如果想得到截距，你需要通过恰 
当的设置把均值整合到分析当中。但是这并不会改变 
回归系数。 

(2) 这个模型被设置成为三个独立的方程，分别针 
对 ANTI 90, ANTI 92, ANTI 94。 三个方程对应的系数 
被限定一致。在 Mplus 中，这是通过在自变量名后面的 
括号里放上数字来实现的，希望被限定相等的参数后面 
放相同的数字。放宽这些限定就相当于允许自变量与 
时间之间存在交互作用。 

(3) 同时需要限定 ei ， e 2 和 e 3 的误差方差在三个方 
程中保持相等。 

和大多数 SEM 程序一样， Mplus 也会产生大量的输岀 
结果。这一输出至关重要的部分——回归系数、标准误以及 
统计检验情况——已经呈现在表 6. 1中。这些估计结果应 
该与表 2. 5中釆用 xtreg 命令产生的结果进行比较。两套回 
归系数及标准误实质上是一模一样的。 [26] 

现在我们有了一种使用 SEM 软件估计随机效应模型的 
方法，其产生的结果与 Stata 中 xtreg 命令产生的相同。不 
过，这种方法有几个重要的不足。首先，和 xtreg 命令不一 
样，这种方法很难用于非平衡数据。如果样本中每个个体的 
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重复测量次数相等，则数据是平衡的。相反，如果我们的样 
本中有些小孩存在缺失值，比如说在变量 ANTI 94 上，有些 
SEM 软件要求把这样的个体记录全部删除。幸好， Mplus 以 
及其他大多数 SEM 程序包现在都有带缺失数据情况下的最 
大似然估计选项，从而能够处理此种非平衡数据。第二，尽 
管可能，但要想设置模型以处理时间的线性作用、与时间的 
线性交互作用、或者随机系数也会非常麻烦 (MuthSn & Cur ¬ 
ran , 1997)。相反，这在 xtreg 及大多数随机效应软件中很容 
易处理。 


表 6.1 NLSY 数据的结构方程模型 



随机效应 

固定效应 

组合模型 
( Compromis ) 


系数 

标准误 

系数 

标准误 

系数 

标准误 

SELF 

-0. 062** 

0. 009 

— 0. 055** 

0.011 

-0. 062** 

0. 009 

POV 

0. 247** 

0. 080 

0. 112 

0. 093 

0. 111 

0. 093 

BLACK 

0. 227 

0. 125 

0. 269* 

0, 126 

0. 269 # 

0. 126 

HISPANIC 

-0.218 

0. 138 

— 0. 198 

0. 138 

_ 0. 201 

0. 138 

CHILDAGE 

0. 088 

0. 091 

0. 089 

0. 091 

0. 090 

0, 091 

MARRIED 

-0. 049 

0. 126 

— 0. 022 

0. 126 

— 0. 025 

0. 126 

GENDER 

— 0. 483** 

0. 106 

— 0. 476** 

0. 106 

— 0. 479** 

0. 106 

MOMAGE 

— 0. 022 

0. 025 

— 0. 026 

0. 025 

_ 0. 025 

0. 025 

MOMWORK 

0. 261 

0. 114 

0. 296 _ 

0. 115 

0. 295** 

0. 115 


注： *0.01 <々<0. 05， **^<0. 01 o 


但是， SEM 方法也有一些重要的优点。第一，它可以综 
合随机效应模型与带有多个指标的潜变量模型。这些潜变 
量既可以是自变量也可以是因变量。有关多指标潜变量模 
型的很好的入门介绍可以在克兰 （ Kline , 2004) 或者哈彻 
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( Hatcher , 1994) 的著作中找到。第二，如我们将在下一节看 
到的，基于 SEM 框架的随机效应模型可以被扩展到用于估 
计固定效应模型，这种估计是通过允许随机效应模型与固定 
效应模型进行比较或折中的方式来实现的。 



126 


固定效应回归横型 


第2节 I 固定效应作为潜变置的模型 


如在第 2 章中已经提到的，基本的随机效应模型实际上 
只是固定效应模型的一种特殊形式 （ Mundlak ， 1978)。随机 
效应模型假定 a , 与时变预测变量的向量 X ,,不存在相关。而 
固定效应模型允许 a 与^的元素存在任意的相关。图 6. 2 
展示了一个简化的只有一个时变自变量的固定效应模型。 
这个通径图与图 6. 1的唯一差别 在于: a 和 x 之间多了表示 
相关的曲线箭头。 



图 6. 2三期数据固定效应模型的通径图 


这些新加的相关通过简单地设定潜变量与时变自变量 
之间的相关很容易就能合并到 SEM 软件中 （Allison & Bol - 
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len ， 1997； Teachman 、 Duncan、Yeung Levy ，2001) D 注 
意，潜变量不能与任何非时变自变量如 GENDER 或 MAR ¬ 
KED 存在相关。 试图这样做将导致不能识别的模型，通常 
会产生错误或警告信息。 

固定效应模型的系数估计及相关的统计量呈现在表 6. 1 
的中间两列中。我们首先来看 SELF 和 POV 的系数及标准 
误，可以看到它们与表 2. 5 中使用 xtreg 命令的固定效应选 
项估计的结果一模一样。 [27] 它们与表 2. 8中采用混合模型 
法所得结果也完全一样。 

与混合模型法一样，表 6. 1也给岀了非时变变量的系数 
估计。不过，表 6.1 中这些变量的系数估计值和统计检验结 
果与表 2. 8中的估计值及统计检验结果大不一样。例如，表 
6. 1中 MOMWORK 的系数明显地统计显著,但在表 2. 8中 
同样明显地不显著。哪一个更好呢，混合模型估计还是 SEM 
估计？这得看情况。仿真结果（这里没有呈现岀来）强烈地 
表明，当非时变协变量2与未被观测的异质性因素 a 之间的 
相关为0时， SEM 产生的估计值近似无偏，而混合模型法产 
生的估计结果将可能大幅有偏。相反，当 z 与 a 相关时，两种 
估计都会有偏，但 SEM 估计结果的偏差会比混合模型法的 
偏差更大。 

既然我们已经同时有了固定效应和随机效应两种形式 
的结构方程模型，那么很容易就能产生一个对二者进行比较 
的似然比统计量。对于每一个模型，输出结果都会包括一个 
卡方统计量和相应的自由度。这个统计量将模型的整体拟 
合水平与能够完美地重生所有变量的协方差矩阵的饱和模 
型进行比较。对于随机效应模型，卡方值为 84. 42,自由度为 
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34。而对于固定效应模型，卡方值与对应的自由度分别为 
66. 45和2匕两者之间的差异是一个取值为 17. 97,带6个 
自由度的卡方量。这6个自由度对应的是固定效应模型下 
允许的另外6个相关。这一卡方量的值为0.006,表明我 
们应该拒绝随机效应模型而选择固定效应模型。这与我们 
在第2章中应用 Stata 产生的 Hausman 检验及检验均值变 
量系数与对中值系数是否相等的检验达成的结论相同。 
与混合模型法中的检验一样，这里计算的似然比检验拥有比 
Hausman 检验更好的统计性质，比方说，后者在一些数据构 
造下可能取负值。 
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第3节1固定效应和随机效应的折中 


在上一节，我们是以随机效应模型作为开始.然后允许 
随机效应 a 与时变解释变量之间所有可能的相关的方式获 
得固定效应模型的。但可能并非所有那些相关都真实存在。 
表 6. 2给出了使用 Mplus 产生的 a 与时变变量之间的相关 
系数与协方差估计值。看起来，《与 SELF 变量的相关系数 
很小，而且在统计上不显著，但与 P () V 变量的相关系数要大 
一些，且3个中有两个统计显著。这说明我们可以将 a 与 
SELF 的相关系数设置为0,而不会明显降低模型的拟合水 
平。这样做是令人满意的，因为它将使我们对 SELF 系数的 
估计同时基于个体内及个体间的变异，得到的标准误将更 
小些。 [29: 


表 6. 2 a 与时变自变置之间的相关系数 



相关 

二统计量 

SELF90 

— 0. 006 

-0. 77 

SELF92 

— 0. 0146 

-1. 71 

SELF94 

-0. 008 

- -1. 01 

POV90 

0. 123 

3. 34 

POV92 

0. 019 

1.33 

POV91 

0. 095 

2. 49 


这在 Mplus 中很容易就能实现，产生的结果呈现在表 
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6. 1的右边两列。 POV 的系数及 f 统计量与我们在固定效应 
模型中得到的差不多相同。另一方面， SELF 的系数比纯固 
定效应模型的略微大些，而其标准误要小20%左右。取这两 
个模型的卡方之差，我们得到自由度为3的卡方值 3. 00。这 
显然在统计上不显著，这表明我们不能因为喜欢较复杂的模 
型而拒绝较简单的模型(将3个相关系数设定等于0的那个）。 
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第4节 | 带滞后自变量的交互效应 


至此，我们已经看到第2章中很多固定效应和随机效应 
模型同样也能用 SEM 软件进行估计，而且这种方法既有优 
点也有不足。下面我们来考虑一些远远超出第2章的重要 
固定效应模型，它们在结构方程框架下估计起来非常方便。 
这些模型违背了第2章的严格外生性假定，这一假定表述的 
是，在任意时点 T 及 〆 ， X 。都在统计上独立于 e , r 。 这种情况 
的出现或是 因为〜 受早先时点的^的影响，或是因为 心的某 
个元素就是早先时点的^本身（时滞因变量）。这些模型非 
常重要，因为它们为增强我们确定相互关联的变量间的因果 
方向的能力提供了可能。 

假设我们观测了两个变量1和> 已知两者存在相关。我 
们想知道究竟是 I 导致了 >还是^导致了 : K 或者同时存在)。 
两个变量都在几个时点上得到观察。假定有下面的 模型： 

y tt — fx t +/1ZV/—i) +a, + e t , 

x lt ~ Tt^Sy + 7j,+ u it [ 6 . 2 ] 

这一模型所说的 是:: V 受前一个时点的: r 的影响，而 x 受 
前一个时点的 J 的影响。模型还包括固定效应《和7,它们 
代表任何及所有非时变解释变量对每个变量 0 的作用。我们 


①此处指: T 及 > ——译者注 
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同样可以纳人其他时滞型时变自变量和非时变变量，但这将 
使得我们的讨论变得不必要的复杂。 

这一模型如何估计呢？如果观察恰好只有3个时点，那 
模型可以通过取一阶差分，然后分别对每个方程应用一般最 
小二乘法的方式进行估计 

: y 1: i — y t z = —"2) +/3(^2 — Ai) + (e,3 — e, 2 ) 

^.3 ~ -^,2 = (r 3 — r 3 ) + d ( y l2 — ) + (»j i3 ~ On ) 

:6. 3: 

当超过 3 个时点时，第 2 章使用的方法（纳入标识每个 
个体的虚拟变量或者相对于均值的离差)看起来能够完成这 
一工作。不幸的是，由于存在往复效应，在固定效应估计中 
使用的差分值必然与回归方程中的误差项相关，从而导致有 
偏的估计 ( Woodridge ， 2⑻2)。幸好，通过将固定效应并人结 
构方程模型，能够帮助我们规避这些难题。 

当模型进一步扩展到允许纳人因变量（内生变量）的时 
滞值时，会出现更严重的 困难： 

yu — fJ-t +^iX i(( -d 十译乂 ( 卜 ]) +a, 十 h 

= r t x iu - X) J td 2 yi { t -\) + 7, [6. 4] 

如果我们将固定效应 ( a 和 W 排除在外，这一模型就是 
社会科学中有名的两期一双变量面板模型 （ twcrwave ， two - 
variable panel model ) 或交叉滞后面板模型 （ cross-lagged pan ¬ 
el model ) 0 

在计量经济学文献中，带滞后因变量的面板模型被称为 
动态模型。它们因对常规估计方法造成严重困难而出名，已 
经有几种可供选择的办法来应对该模型 （ Baltagi ， 1995； 
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Honore , 1993； Honore 8^ Kyriazidou ， 2000)。这些方法一 

般依赖于工具变量（ IV )框架下对滞后变量的使用。其中最 
有名的是 Arellano 和 Bond (1991) 提出的，通过在 Stata 中用 
xtabond 命令来实现。不过， Lancaster (2000) 将 IV 法描述成 
为“临时的”，而且“只是因为计量经济学家不懂得如何正确 
使用似然法”才被使用的。 

确实，动态固定效应模型的最大似然估计可以通过使用 
SEM 软件直接估计。尽管这种方法的性质尚未得到分析性 
的深入研究，我所做的仿真研究 ( Allison ，2000) 显示,这种方 
法能够很好的再生方程 6. 4所示模型的参数。 

作为示例，我分析了美国1983年、1989年、1995年和 
2001年178个职业的数据。这一数据来自于每年3月的“当 
期人口 调查： 年度人 口档案 ”（Current population survey ： 
Annual demographic file , CPS ) 。在 CPS 原始数据中，观察对 
象是个人，但我使用的只是178个职业的汇总数据。对于每 
个年度的每个职业，我都计算了该职业中女性的比例及女性 
中位工资收入。这里只考虑了每个年度至少有50个样本个 
体的178个职业。更详细的信息可以参看英格兰、埃里森及 
吴的作品 （ England、Allison 8^ Wu , 200 7 )。工资变量被标定 
为 MDWGF 1- MDWGF 4, 而女性比例为 PF 1- PF 4 。 

对于方程 6. 4中的模型，令: y 为中位工资收入， x 为女性 
比例。在1983年，这两个变量之间的相关系数为一 0. 33,并 
且高度显著。关于这两个变量之间的因果方向存在相当多 
的争论 (England et al . ， 2007)。一种观点认为，雇主会贬低 
女性比例较高的职业的价值，从而支付较低的工资。与此 
针锋相对的假设是，逐渐下降的工资使得该职业对男性不 
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再那么具有吸引力，当他们离幵并涌向报酬更好的工作时, 
女性将填补他们空缺下来的职位。这里，我假定两个变量 
中任何一个的变化都会在六年后另一个变量的变化中显露 
出来。 

通过估计方程 6. 4中的两个方程，我们可以对这两种 
可能的因果作用进行评估。尽管这两个方程可以同时进行 
估计，但分开估计可使模型的设置具有更大的弹性。「〜除 
固定效应外，容许相互作用的关键设置 在于： 各个时点的误 
差项被允许与时变协变量的未来值相关 （ Woodridge, 
2002). 在我们的例子里， Time2 时中位工资方程中的误差 
项必须被允许与 Time3 时的女性比例之间存在非零的相 
关。与此类似， Time2 时女性比例方程中的误差项必须与 
Time3 时的中位工资相关。注 意：没 有方程可以用来预测 
Timel 时的中位工资或者女性比例，因为我们没有观察它 
们六年前 （1977 年）的滞后值。 

另外要注意，对于滞后因变量，只允许潜变量与 Timel 
时的变量值相关。这是因为只有 Timel 变量是外生的，而相 
关只被允许存在于外生变量之间。事实上没有必要设定潜 
变量与滞后因变量后来的各取值相关，因为潜变量本身就是 
求取这些变量的方程的自变量之一。 

两个方程的结果呈现在表 6. 3中。一点都不奇怪的是, 
每个变量都对其自身六年后（的取值)有着正向的、统计显著 
的作用。但对于“交叉一滞后”系数，没有证据支持两个作用 
方向中的任何一个。 
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表 6. 3交互作用模型的估计结果 




反应 

变量 


自变量 

工资中位数 

女性比例 


系数 

标准误 - 

系数 

标准误 

工资中位数 

0. 3 W 

0. 064 

一0. 00] 

0. ()02 

女性比例 

-0. 159 

2. 447 

0‘ 299^ 

0. 079 


在其他地方，我曾经质疑过，当模型已经包含固定效应 
时，纳入因变量滞后值是否必要 (Alfcon, 1990 )。 因此，我还 
估计了一个不含因变量滞后值的模型，得到的交叉一滞后系 
数完全一样。类似的，含有因变量滞后值但不包括固定效应 
的模型(经典的两期一双变量面板模型）同样未能提供支持 
某一方向的交叉一滞后效应的证据。 
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第5节 | 总结 


定量反应变量的线性固定效应或随机效应回归模型可 
以用 SEM 软件进行估计，所得结果与第2章中讨论的更常 
规的方法得到的一样。不过•这种方法要求不同的数据结 
构,这种数据的一条记录包括每个个体或群组的所有测量. 
多次测量被编码为不同的变量。在 SEM 软件中，每个反应 
变量在每个时点都设定了 一个单独的方程•不同方程的系数 
通常被限定彼此相等。而随机效应或固定效应被设定为潜 
变量，并为各个方程中所共有。在固定效应形式下，这一潜 
变量被允许与所有在不同方程中有所变化的自变量之间存 
在相关。 

这一方法通常比第2章中描述的方法设置起来更加麻 
烦。但是，它允许进行一些有趣的拓展•包括对固定效应和 
随机效应进行比较的似然比检验，对固定效应和随机效应模 
型的折衷，以及建立潜变量有多个指标的模型。最重要的 
是，在 SEM 框架下有可能对这样一种跟踪调查数据模型进 
行估计.在这种模型中，两个或多个反应变量彼此之间被认 
为存在滞后的相互作用。这种模型使我们有可能根据非实 
验数据做出比平常更有力的因果推论。 
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附录1 I 第2章到第5章例题的 

Stata 程序 


use _’C; \\data\\nlsy n ， clear 

/ * 表 2. 1 * / 
reg anti90 self90 pov90 
reg anti94 self94 pov94 
gen antidiff = antiS4 - anti90 
gen povdif f = pcv94 - pov90 
gen selfdiff = self94 - self90 
reg antidiff povdiff selfdiff 

/* 表 2, 2 * / 

reg antidiff povdiff selfdiff povSO self90 black /// 
hispanic childage married gender momage momwork 

/* 表 2, 3 * / 

gen antidifl = anti92 - anti50 
gen ant id if 2 = anti94 - anti92 
gen selfdif 1 = self92 - self90 
gen selfdif2 = self94 - self92 



gen povdif 1 = pov92 - pov90 
gen povdif 2 = pov94 - pov92 
reg antidif2 selfdif2 povdif2 
reg antidifl selfdif 1 povdif 1 
gen id = —n 

reshape long antidif povdif selfdif i( id) 

gen eqdum = _j - 1 

reg antidif povdif selfdif 

xtset id 」 

xtreg antidif povdif selfdif eqdum, pa 


/ * creat data set with 3 records per person * 
use "C:\\data\\nlsy" ， clear 
gen id 二 —n 

reshape long anti self pov ， i( id) 
gen time = 1 + ( 」 - 90) /2 

/* 表 2. 5 * / 

xi : reg anti self pov i. time i. id 
xi ： reg anti self pov i. time 
xtset id time 

xi ； xtreg anti self pov i. time, fe 

/* 表 2.6 W 

xi ： xtreg anti i. time * self i. time * pov /// 
i. time * gender i. time * childage III 
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i- time * hispanic i. time * back i. time * momwork III 
i.time * married III 
i. time * momage, fe i( id) 

testparm _ItimXself * _ItimXpov * _ItimXgend * III 
_ItimXchill * _ItiinXhisp * /// 

_ItimXblac * _ItimXmomw * JtimXmarr * 工 timXmoma * 


表 2. 7 * / 

xi ； xtreg anti self pov i. tiine black hispanic /// 
childage married gender momage momwork 
xi : xtreg anti self pov i. time 

/ * Hausman test * / 

xi: xtreg anti self pov gender childage hispanic ill 
black momwork married momage i. time 
estimates store random effects 


xi ； xtreg anti self pov i. time, fe 
estimates store f ixed_effects 
hausman fixed effects random effects 


表 2. 8 * / 

egen mself = mean( self) , by( id) 
egen mpov = mean(pov) , by( id) 
gen dself = self - mself 
gen dpov = pov - mpov 



附录 
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xi ： xtreg anti dself dpov mself mpov black III 
hispanic childage married III 
gender momage raomwork i. time 
test (dself = mself) (dpov = mpov) 
xi ： xtmixed anti dself dpov mself mpov black III 
hispanic childage married III 
gender manage raomwork i. time | | id ； dself 


/* 表 3_1* / 

use n C ： \\data\\teenpov. dta” ， clear 
tab povl pov5 


/* 表 3. 2 * / 
drop if povl = = pov5 
gen dmother = mothers - motherl 
gen dspouse = spouseS - spousel 
gen dschool = inschoolS - inschooll 
gen dhours = hoursS - hoursl 
logit pov5 dmother dspouse dschool dhours 
logit pov5 dmother dspouse dschool dhours black age 
logit pov5 dmother dspouse dschool dhours black III 
age motherl spousel inschooll hoursl 


/* 表 3. 4 * / 

use n c ： \\data\\teenpov. dta" , clear 

reshape long pov mother spouse inschool hours, i( id) 
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rename inschool school 
rename 」 year 
xtset id year 

xi ； xtlogit pov mother spouse school hours III 
i. year, fe 

xi ： xtlogit pov mother spouse school hours III 
i. year, pa corr(uns) 

xi ： xtlogit pov mother spouse school hours i. year 

/* 表 3. 5 * / 

gen raothblack = mother * black 
xi ： xtlogit pov mother spouse school hours III 
mothblack i. year, fe 
gen yearschool = (year - 1) * school 
gen yearhours = (year -1)*( hours -8.67) 
gen yearblack = (year - 1) * black 
gen yearage = (year -1)*(age - 15. 65) 
xi：xtlogit pov mother spouse school hours year III 
yearschool yearhours III 
yearblack yearage, fe 

/* 表 3.6, 3.7 * / 
egen mmother = mean (mother) , by( id) 
egen raspouse = raean( spouse), by( id) 
egen mschool = mean( school), by( id) 
egen mhours = mean(hours) , by( id) 



gen dmother = mother - mmother 
gen dspouse = spouse - mspouse 
gen dschool = school - mschool 
gen dhours = hours - mhours 

xi: xtlogit pov dmother dspouse dschool dhours III 
mmother mspouse mschool mhours black age i. year 
test dmother = mmother 
test dspouse = mspouse 
test dschool = mschool 
test dhours = mhours 

test (dmother = mmother) (dspouse = mspouse) III 
(dschool = mschool) (dhours = mhours) 
xi: xtmelogit pov dmother dspouse dschool dhours III 
mmother mspouse /// 

mschool mhours black age i. year | | id ： dmother 


/* 表 3. 8 * / 

use "C:\\data\\nlsy n ， clear 
gen id = _n 

reshape long anti self pov, i(id) 
gen time = 1 + (_j -90)/2 
egen mself = mean( self), by( id) 
egen mpov = mean(pov), by( id) 
gen dself = self - mself 
gen dpov = pov - mpov 

xi: ologit anti dself dpov mself mpov black III 
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hispanic childage married III 
gender momage momwork i. time, cluster(id) 
test (dself = mself) (dpov = mpov) 

/* 表 3.9 * / 

use " C : \\data\\teenpov2. dta n , clear 

reshape long mother spouse empstat, i( id) 

drop if empstat =. 

gen currage = age + j - 1 

egen mmother = mean (mother), by( id) 

egen mspouse = mean( spouse), by( id) 

egen mage = mean (cur rage), by ( id) 

gen dmother = mother - mmother 

gen dspouse = spouse - mspouse 

gen dage = currage - mage 

mlogit empstat dmother mmother dspouse mspouse III 
dage mage black, III 
vce(cluster id) base(l) 
test([#1]dmother= [#1]mmother) III 

([#l]dspouse= [ # l]mspouse) ([ # l]dage = [ # l]mage) 
test([# 2]dmother =[#2]mmother) III 

([#2]dspouse= [ #2]mspouse) ([ #2]dage= [ # 2]mage) 
preserve 

drop if empstat = 3 
gen empstat2 = empstat - 1 
xtset id 」 



xtlogit empstat2 dmother III 


mmother dspouse mspouse dage mage black, re 
drop if empstat = 2 
gen empstat3 = empstat - 1 
xtset id _j 

xtlogit empstat3 dmother mmother dspouse mspouse III 
dage mage black, re 

/* 表 4.1 * / 

use patents, clear 
gen total = pat75 + pat79 
gen rdO = logr79 - logr75 
gen rdl = logr78 - logr74 
gen rd2 = logr77 - logr73 
gen rd3 = logr76 - logr72 
gen rd4 = logr75 — logr71 
gen rd5 = logr74 - logr70 


blogit pat79 total 

blogit pat79 total, vce( jack) 

blogit pat79 total, vce(boot) 


blogit pat79 total rdO _ rc5 


blogit pat79 
blogit pat79 
blogit pat79 
blogit pat79 


total rdO - rd5, vce( jack) 

total rdO - rd5, vce(boot) 

total rdO - rd5 science logsize 

total rdO - rd5 science logsize, vce(boot) 
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/* 表 4. 2 * / 

use patents , clear 
rename pat75 patent 1 
rename pat76 patent2 
rename pat77 patent3 
rename pat78 patent4 
rename pat79 patents 

gen sumpat = patentl + patent2 + patent3 + patent4 

+ patents 
gen rdal = logr75 
gen rda2 = logr76 
gen rda3 = logr77 
gen rda4 = logr78 
gen rda5 = logr79 
gen rdbl = logr74 
gen rdb2 = logr75 
gen rdb3 = logr76 
gen rdb4 = logr77 
gen rdb5 = logr78 
gen rdcl = logr73 
gen rdc2 = logr74 
gen rdc3 = logr75 
gen rdc4 = logr76 
gen rdc5 = logr77 
gen rddl = logr72 
gen rdd2 = logr73 



gen rdd3 = logr74 
gen rdd4 = logr75 
gen rdd5 = logr76 
gen rdel = logr71 
gen rde2 = logr72 
gen rde3 = logr73 
gen rde4 ~ logr74 
gen rde5 = logr75 
gen rdf 1 = logr70 
gen rdf2 = logr71 
gen rdf 3 = logr72 
gen rdf 4 = logr73 
gen rdf5 = logr74 
gen id = —n 

reshape long patent rda rdb rdc rdd rde ref, i( id) 

rename 」 time 

rename rda rdO 

rename rdb rdl 

rename rdc rd2 

rename rdd rd3 

rename rde rd4 

rename rdf rd5 

list id time patent rdO - rd5 in 1 /20 
xtset id time 


/* 表 4. 3 关 / 

xi ： xtpoisson patent rdO rdl rd2 rd3 rd4 rd5 III 
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i. time, fe 

xi: xtpoisson patent rdO rdl rd 2 rcG rd 4 rd 5 III 
i. time 3 fe vce(boot) 

xi ： xtpoisson patent rdO rdl rd 2 rd 3 rd4 rd 5 III 
i, time, re 

xi ： xtpoisson patent rdO rdl rd 2 rd 3 rd4 rd 5 III 
i.time, pa corr(uns) vce(robust) 

xi: xtpoisson patent rdO rdl rd 2 rcG rd4 rd 5 III 
i. time 


/* 表 4. 4 * / 

gen xdsci = rdO * science 

xi ： xtpoisson patent rdO rdsci i. time, fe 

xit ： xtpoisson patent rdO rdsci i. time, fe vce(boot) 


/* 表 4_ 5 * / 

gen scitime = time * science 
xtpoisson patent rdO time scitime, fe i( id) 
xtpoisson patent rdO time scitime, fe i(id) III 
vce(boot) 


/* 表 4. 6 * / 
drop if sumpat = 0 

xi ： nbreg patent i. id rdO rdl rd 2 rcD rd4 rd 5 III 
i. time 

xi : nbreg patent i. id rdO - rc5 i. time,vce(opg) 



/* 表 4. 7 * / 

xi : xtnbreg patent rdO - rd5 i. time, fe i( id) 
xi ： xtnbreg patent rdO - rd5 science logsize /// 
i. time, fe i( id) 


/* 表 4. 8 * / 

egen mrdO = mean(rdO), by( id) 
egen mrdl = mean( rdl), by( id) 
egen mrd2 = mean( rd2), by( id) 
egen mrcG = mean( rd3) , by( id) 
egen mrd4 = mean( rd4) , by( id) 
egen mrd5 = mean( rd5) , by( id) 
gen drdO = rdO - mrdO 
gen drdl = rdl - mrdl 
gen drd2 = rd2 - mrd2 
gen drcB = rcG - mrcG 
gen drd4 = rd4 - mrd4 
gen drd5 = rc5 - mrd5 

xi ； xtnbreg patent drdO drdl drd2 drd3 drd4 drd5 ill 
mrdO mrdl mrd2 mrd3 /// 
mrd4 mrd5 science logsize i. time, re 
test (drdO = mrdO) (drdl = mrdl) (drd2 = mrd2) III 
(drd3 = mrcG) (drd4 = mrd4) (drd5 = mrd5) 
xi: xtnbreg patent drdO drdl drd2 drd3 drd4 drc5 III 
mrdO mrdl mrd2 mrd3 III 
mrd4 mrd5 science logsize i. time, pa robust 




150 


固定效应回归模型 


test (drdO = mrdO) (drdl = mrdl) (drd2 = mrd2) ill 
(drd3 = mrd3) (drd4 = 虹 d4) (drd5 = mrd5) 

/ * 表 5.1 * / 

use M C : \\data\\nsf g. dta” ， clear 
stset dur，failure (birth = 1) 

stcox pregordr age married passt nobreast lbw III 
caesar multiple college, nohr 
stcox pregordr age married passt nobreast lbw III 
caesar multiple college, nohr cluster(caseid) 

/* 表 5. 2 * / 

stcox pregorder age married passt nobreast lbw /// 
caesar multiple college, III 
strata(caseid) nohr 
gen collbreast = college * nobreast 
stcox pregorder age married passt nobreast lbw /// 
caesar multiple college III 
collbreast, nohr strata(caseid) 

/* 表 5.3 * / 

use n C ： \\data\\coupleday. dta" , clear 
xtset couple id day 
xtlogit husdead wif edl5, f e or 
xtlogit husdead wifecBO, fe or 
xtlogit husdead wifed60, fe or 



xtlogit husdead wifed90, fe or 
xtlogit husdead wifedl20, or 
xtlogit husdead wif edl5, or 
xtlogit husdead wifed30, or 
xtlogit husdead wif ed60, or 
xtlogit husdead wifed90, or 
xtlogit husdead wifedl20, or 


/* 表 5.5* / 
drop if wifef irst = 0 
gen day2 = day * day 

xtlogit wifedl5 husdead day day2, f e or 
xtlogit wifed30 husdead day day2, f e or 
xtlogit wifed60 husdead day day2, f e or 
xtlogit wifed90 husdead day day2, fe or 
xtlogit wifedl20 husdead day day2, fe or 
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附录2 I 第6章例題的 Mplus 程序 


! 表 6. 1 

! Random Effects 

Data ： file is "c : \\data\\nlsy. dat "； 

variable : names are anti90 anti92 antiS4 black childage 
gender hispanic married momage momwork pov90 pov92 pov94 
self90 self92 self94 ； usevariables = anti90 anti92 an- 
ti94 black childage gender hispanic married momage mom- 
work pov90 pov92 pov94 self90 self92 self94; 

Model : 

falpha by anti90 - anti94@l ； 
anti90 on 
pov90 (1) 
self90 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
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momwork (9 ) ； 
anti92 on 
pov92 (1) 
self92 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
manage (8) 
momwork (9 )； 
anti94 on 
pov94 (1) 
self94 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 

falpha with pov90 - pov94@0 self90 - self94@0 black@0 
hispanic@0 childage® 0 maarried@0 gender@0 momage@0 
momwork® 0 ； 

anti90 anti92 anti94 (10); 



154 


团定效应回归横型 


! Fixed Effects 

Data ； file is M C ； \\data\\nsly. dat "； 

Variable : names are antiSO anti92 ant 194 black childage 
gender hispanic married momage momwork pov90 pov92 pov94 
self90 self92 self94 ； usevariables = anti90 ant192 an- 
ti94 black childage gender hispanic married momage mom- 
work pov90 pov92 pov94 self90 self92 self94 ； 

Model : 

falpha by anti90 - anti94@l ； 
anti90 on 
pov90 (1) 
self90 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 
anti9 2 on 
pov92 (1) 
self92 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 



gender (7) 
momage (8) 
morawork (9 )； 
anti94 on 
pov94 (1) 
self94 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
momwork (9 )； 

falpha with black®0 hispanic@0 childage® 0 married® 0 
gender® 0 raomage@0 momwork® 0 ； 
anti90 anti92 ant 194 (10); 


! Compromise 

Data ； file is M c ： \\data\\nlsy. dat n ； 

variable ： names are anti90 anti92 anti94 black childage 
gender hispanic married momage momwork pov90 pov92 pov94 
self90 self92 self94 ； usevariables = anti90 anti92 an- 
ti94 black childage gender hispanic married momage mom¬ 
work pov90 pov92 pov94 self90 self92 self94 ； 

Model: 

falpha by anti90 - anti94@l ； 
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anti90 on 
pov90 (1) 
self90 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
moraage (8) 
raomwork (9 )； 
anti92 on 
pov92 (1) 
self92 (2) 
black (3) 
hispanic (4) 
childage (5) 
married (6) 
gender (7) 
momage (8) 
morawork (9 )； 
anti94 on 
pov94 (1) 
self94 (2) 
black (3) 
hispanic (4) 
childage (5) 
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married (6) 
gender (7) 
momage (8) 
momwork (9 )； 

falpha with self90 - self94 @ 0 black @ 0 hispanic @ 0 
childage@0 

married®0 gender@0 moraage@0 momwork@0 ； 
anti90 anti52 anti54 (10); 

! 表 6. 3 

Data ： file is ”C: \\data\\occ. dat"; 

Variable ： names are pfl _ pf4 mdwgfl - mdwgf4 ； usevari- 
ables pfl - pf4 mdwgfl - mdwgf3 ； 

Model ； 

alpha by pf2 - pf4@l ； 
pf 4 on 
pf3 (1) 
mdwgf3 (2 )； 
pf 3 on 
pf2 (1) 
mdwgf2 (2 )； 
pf 2 on 

Pfl (1) 

mdwgfl (2 )； 
mdwgf 3 with pf 2; 
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Data ： file is "C ： \\data\\occ. dat ,? ； 

Variable ： names are pfl - pf4 mdwgfl - mdwgf4 ； 
ables pfl — pf3 mdwgfl - mdwgf4 ； 

Model: 

alpha by mdwgf2 - mdwgf4@1 ； 
mdwgf 4 on 
pf3 (1) 
mdwgf3 (2 )； 
mdwgf3 on 
P f2 (1) 
ndwgf2 (2 )； 
mdwgf2 on 
pfl (1) 
mdwgfl (2 )； 
mdwgf2 with pf3 ； 


usevari- 
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注释 


[I] 感谢皮特 • 苔丝 (Pet er Tice) 为我准备并提供了这一数据 = 

[ 2 ] 因为 ANTI 只能取整数值并且是正偏态分布，因此使用序次 logit 回归 
可能比使用线性回归更合适。事实上，在第3章我们就会用这种模型 
来分析该数据。不过， logit 模型得到的结论与本章利用线性模型得到 
的结论在性质上几乎是一样的^ 

[3] 在这里，随机效应模型 （xtreg 命令的默认设置）是不合适的，因为随机 
效应模型只允许误差项之间存在正向相关。在存在多个一阶差分方程 
的情况下，误差相关通常是负的。 

[ 4 ] 这里 reg 命令(本章讨论的所有其他 Stata 命令)是和 xi 前缀一起使用 
的，这样可以将 TIME 及 ID 变量作为分类变量处理。 

[5] 这些数字可以通过将各变量分别作为因变量， ID 变量作为分类自变量 
进行方差分析 得到。 

[ 6 ] Stata 另一个实现离均差法的命令是用 areg 配合 absorb(id) 选项来实 
现的。 

[7] Hausman 检验的计算如 下:令 b 表示固定效应系数向量（不包括截距 
项），表示对应随机系数向量。令^ = var(6) — var(/3) ，其中 var(6) 
是6的估计协方差矩阵，的类似。 Hausman 检验的统计量为 m = 
(6 —— /3)，它在虚无假设下服从卡方分布。 

[8] 这里描述的混合法与 Mimdlak(1978) 和 Hausm a n(1978) 提出的方法相 
似，但并不相同。 

[9] 这些估计只有在数据集平衡——也就是说，每一个个体被观察的期数 
相等——的情况下，才完全相等。否则，混合法所得估计将与常规固定 
效应估计略有差异。 

[10] 关于这一结果的来历，请看埃里森的另一本著作 (Allison， 2005)。 

[II] 在两期观察情况下，条件似然法也可以采用下一节将讨论的针对三期 
及以上数据的方法进行，使用的是 Stata 中的 xtlogit 命令。所得结果 
将与刚刚讨论的“差分”法一样。 

[12] 我同样拟合了另一个模型—— YEAR 在全部4个交互项中都被当做定 
类变量对待，但通过似然比检验发现，该模型与模型2并不存在显著 
差异。 

[13] 在表 3. 5中我仅仅考察了这些被选中的交互项。在很多实际应用中， 
可能需要同时检验所有变量与时间的交互项，以对模型在各时期的稳 
定性进行全面检验。这可以通过比较两个模型的方式完 成:一 个模型 
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含有所有的交互项，而另一模型不含任何此类交互项。两个模型的似 
然比卡方统计量的差值本身就是对所有这些交互项系数都等于 0( 相 
应的自由度等于两个模型的自由度之差）的假设的似然比卡方检验。 

[14] 这些检验通过 Stata 中的 test 命令能够轻松完成。具体细节请看附 
录1。 

[15] 本章不考虑零膨胀泊松及负二项模型，有三个原因 ：它们 要复杂得多， 
几乎没有软件可用来对跟踪调查数据进行此种分析，而且负二项模型 
本身就能为含有大量零计数值的数据提供满意的拟合。 

[16] Stata 中的 reshape 命令使得数据结构的此种变换变得非常简单。 

[17] 由于自助法带有随机抽样环节，因此每次运行所得自助标准误会略有 
差异。通过增加自助样本的数量可以使变异的程度变小。 

[18] 表 4. 3中的 GEE 估计是使用5个年份专利数的“非结构化 "（ unsmic - 
taed ) 相关矩阵所得结果。 

[19] nbreg 命令能够拟合两种不同形式的负二项模型。在默认形式(这里比 
较适合采用的形式)下，方差是均值的函数。而在另外一种形式下，使 
用 dispersion(constant) 选项可以将方差设置成为一个常数。这尽管看 
起来很具吸引力，但并不适合用在这里。 

[20] 和第 3 章的 logistic 模型不同，负二项回归的总体均值模型与具体单位 
摸型之间似乎不存在任何差异。这意味着，随机效应估计结果从大小 
上看不应该比 GEE 估计更大。 

[21] 实际上，我确实尝试这么做了，但我的电脑在运算了 10天后仍在运算， 
我只好终止了这一尝试。从原则上讲，此种计算困难可以使用格林 
( Greene ) 的算法 (2001) 解决，但目前的商业软件中没有现成程序可用^ 

[22] 非常感谢尼古拉斯 • 克里斯塔吉斯 （Nicholas Christakis ) 允许我在这里 

使用这些数据，对这一数据更详细的描述请看埃里森和克里斯塔吉斯 
的著作 （Allison & Christakis » 2006)。 

[23] 可以纳入时间的非单调函数，如 S in (27 tz /365)， 它能够在一年当中周期 
性地变动。 

[24] 当模型在控制变量上“饱和”时，这种对称是完全的，而对于非饱和模 
型，这种对称只是近似的。所谓饱和模型，是指含有分类自变量及其所 
有可能交互项的模型。 

[25] 在 Stata 中使用用户提交的 gllamm 命令可以估计一些结构方程模型。 
但即使是这一命令，它的设定也相当笨拙、复杂。 

[26] 我没有在表 6. 1中报告 TIME 的系数，因为用 Mplus 估计的这三个截 
距与表 2. 5中的并不完全对应。在表 2. 5中 TIME 2的系数等于时间 
2时的截距与时间1时的截距之差。类似的.表 2. 5中 TIME 3的系数 
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等于时间3时的截距与时间1时的截距之差。 

[27] 阿尔纳斯和霍尔姆 (Ejmaes & Holm , 2006) 错误地宣称传统的固定效 
应估计结果与 SEM 估计结果不同。事实上，这两种方法总是给出相同 
的结果。 

[28] SEM 检验有6个自由度， Hausman 检验有4个，而混合法检验只有2 
个自由度。这是因为 SEM 检验允许 a 和/之间的协方差在三个时期 
各不相同.而另外两种方法内在地限定它们相同。 Hausman 检验比混 
合法检验多两个自由度，是因为它同时检验了两个时间系数在随机效 
应模型与固定效应模型中是否相等。拟合固定效应模型时，通过限定 
a 和: r 之间的协方差在各个时期相等，我们可以在 SEM 框架下得到一 
个自由度为2的检验。对于 NLSY 例子来说，这将得到一个自由度为 
2的卡方值，对应 p 值为 0. 003,略微小于自由度为6的检验的/>值。 
这相对于混合法检验来说要小得多，后者得到的卡方值为 9. 86,对应 
自由度为2, 值为 0. 007。 

[29] 关于另外一种使用 IV 的方法，可以参见豪斯曼和泰勒的作品 （ Haus - 
man &- Taylor , 1981) 0 

[30] 这些方程之所以能够用 OLS 进行估计，是因为第一个方程中的两个 I 
与两个 e 都保持独立，而这是因为 I 只受早先时点的 e 的（间接)影响。 
同样的原理适用于第二个方程。 

[31] 如果两个方程同时进行估计，那么不管是作为因变量还是作为自变量， 
每个变量都必须用同样的方式进行表达但是，如果要将它们分开进 
行估计，那我们可以(采用不同形式的表达），例如将一个变量的对数形 
式作为因变量，而在其作为自变量时使用非对数形式。 
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average treatment effects 
between R~ 

bootstrap standard errors 
case-crossover method 
case -time -control method 
censored cases 
censored intervals 
conditional maximum likelihood 
constant variance assumption 
convergence failure 



cross-lagged coefficients 

. .. 

deviance statistic 

deviation coeiiicients 
difference scores 
duration analysis 
dynamic models 
endogenous variables 
event history analysis 
exogenous variables 
failure time analysis 
first difference equation 






first difference method 
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frailty term 

generalized estimating equations 
generalized least squares(GLS) regression 
Gompertz model 
group mean centering 
Hausman test 
hazard analysis 
incidental parameters problem 
instrumental variables(lV) 








平均处理效应 
组间确定系数 
自举标准误 
案例-交叉法 
案例一时间一控制法 
刪失案例 
删失区间 
条件最大似然法 
恒定方差假定 
收敛失败 
交叉滞后系数 
离差统计量 
离差变量系数 
差分值 
存活期分析 
动态模型 
内生变量 
事件史分析 
外生变量 
失效时间分析 
一阶差分方程 
一阶差分法 
脆弱成分 

广义估计方程 (GEE) 法 
广义最小二乘回归 
Gompertz 模型 

组均值对中 
Hausman 检验 

风险分析 
伴随性参数问题 
工具变量 (IV) 框架 
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jackknife standard errors 
lagged dependent variable 
latent variables 

1*1 1*1 I * 

likelihood ratio test 
linear structural equation model 
log-linear model 
Monte Carlo simulation 


NB 2 model 
odds ratios 
ordered logit model 
overdispersion 
panel models 
panel survey 
partial likelihood method 
path diagrams 

poisson models for count data 
proportional hazards model 
random effects models 
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random intercept models 
random slope models 
robust standar errors 
saturated model 
shared frailty models 
stratification 


strictly exogenous variable 
structural equation model ( SEM ) 
subject specific coefficient 
survival analysis 




time-invariant variables 
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unconditional maximum likelihood 
VeCt ° r ° f COeffidentS 


within 

zero-inflated Poisson models 


zero mean 




刀切法标准误 
滞后因变量 
潜变童模型 
似然比检验 
线性结构方程模型 
对数线性模型 
蒙特卡罗模拟 
负二项模型 
发生比率 
次序 logit 模型 
过离散 
面板模型 

固定样本跟踪调査 
偏似然法 
通径图 

计数数据泊松模型 
比例风险模型 
随机效应模型 
随机截距模型 
随机斜率模型 
稳健标准误 
饱和模型 
共享脆弱性模型 
分层 

严格外生变量 
结构方程模型 ( SEM ) 
具体单位系数 
生存分析 
非时变变量 
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系数向量 

(组、个体)内确定系数 
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零均值 




